【自然语言处理】NLP学习及实践记录 | part 实践试水 edu-base-infor词库构建

继对话系统后,接着给自己挖坑。专利里写了自己暂时还不太确定能实现的部分,于是先填一个小坑,这里发现主要研究方向的领域词典不够完善,或者说根本就没有基础词库,在查资料时候发现:其他方向都开源一部分基础词库。于是有一个小思路,可以在每日工作下,完成一部分标注,为了组内工作,也为了毕业的数据基础吧。

海量词库构建(1):概览 - 简书  https://www.jianshu.com/p/12b007fb3f7e

这是一个构建词库的思路,其中基础词库来自清华中文和搜狗,顺藤摸过去,下了搜狗基础教育信息化词库,才九条信息。这里嗯,革命之路漫漫。顺便发现实现技术是爬虫+结巴分词+Grafana+KNN,说好了不给自己设限,就不能被挡住。除了完成专利毕业要求外,可以做一部分这样子基础工作,组内后面开项目也好有工具。再贴一个Grafana的教程,第二个是针对爬虫一起的。

Grafana使用教程 - 菲宇运维 - CSDN博客  https://blog.csdn.net/bbwangj/article/details/81109615

Mysql + Grafana 监控爬虫程序 - 简书  https://www.jianshu.com/p/d547372bb89e

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值