继对话系统后,接着给自己挖坑。专利里写了自己暂时还不太确定能实现的部分,于是先填一个小坑,这里发现主要研究方向的领域词典不够完善,或者说根本就没有基础词库,在查资料时候发现:其他方向都开源一部分基础词库。于是有一个小思路,可以在每日工作下,完成一部分标注,为了组内工作,也为了毕业的数据基础吧。
海量词库构建(1):概览 - 简书 https://www.jianshu.com/p/12b007fb3f7e
这是一个构建词库的思路,其中基础词库来自清华中文和搜狗,顺藤摸过去,下了搜狗基础教育信息化词库,才九条信息。这里嗯,革命之路漫漫。顺便发现实现技术是爬虫+结巴分词+Grafana+KNN,说好了不给自己设限,就不能被挡住。除了完成专利毕业要求外,可以做一部分这样子基础工作,组内后面开项目也好有工具。再贴一个Grafana的教程,第二个是针对爬虫一起的。
Grafana使用教程 - 菲宇运维 - CSDN博客 https://blog.csdn.net/bbwangj/article/details/81109615
Mysql + Grafana 监控爬虫程序 - 简书 https://www.jianshu.com/p/d547372bb89e