山东大学2018级项目实训2021-7-11

最新推荐文章于 2021-07-27 19:26:22 发布

ZZZZZxxxxy

最新推荐文章于 2021-07-27 19:26:22 发布

阅读量75

点赞数

本文链接：https://blog.csdn.net/ZZZZZxxxxy/article/details/118720404

版权

小组成员共同完成了基于关键词的语义泛化系统的开发，涉及腾讯800万词向量计算同义词。工作包括数据预处理、词向量计算、同义词搜索等功能。遇到的问题包括内存限制、keyerror异常以及可能出现的反义词误判。目前实现了一个基础版的demo，后续将进行功能优化。

摘要由CSDN通过智能技术生成

山东大学2018级项目实训2021-7-11：

时间：2021年7月10日-7月11日
项目题目：基于关键词的语义泛化系统

1.具体工作：

总结这两周的工作内容，形成工作内容报告

小组成员：张宇（组长），欧阳吻，赵乐乐，安仕鹏
小组工作：语义泛化：
查找、计算关键词的同义词。
要求：
1）最基础的利用腾讯800万词向量计算同义词，最好再实现至少其他一种方法。
2）小组输出：将该模块功能封装为一个函数。输入：关键词，输出：同义词

第一周，我们先是互相沟通，协调组员之间的合作以及任务分工。在任务分工之后，便开始了代码实现环节。我们先是借鉴了网上的有关资料，并结合了github上有关的开源项目，初步实现了将腾讯800万语料库保存为词典文件（保存词语），向量文件（保存词语的词向量，有200维）。但是，由于读取腾讯800万语料库时，要把所有行都读入内存，而我的工作设备的内存不能支持，所以，我的任务主要是负责将语料库中的词语进行过滤或者是分布式存储。第一种过滤方法，我将纯数字，带英文标点符号，且长度达于1的标点，重复3个以上，纯英文，英文字母+英文标点，中文标点，任何单个中文字符，三个及以上中文字符进行了过滤，最后只留下两个字的词语。第二种是进行数据切割，在组员的帮助下，我根据自己设备的内存大小，将语料库按每110万行进行切割，最终存储在8个文件中。

到了第二周，小组成员已经基于annoy模块实现了基本的搜索查询功能，我便就我第一周的工作输出，向量文件以及词典文件，作为该功能模块的输入，进行调试，搜索关键词的同义词。结果还可以，但是当查询关键词不在腾讯800万语料库时，会报keyerror错误。其次，组员还发现，当对关键词进行同义词搜索查询时，有时候会出现反义词比同义词更相似的情况。我们使用两个词向量之间的余弦距离来作为判断两个词相似情况，但出现这种情况，还不知道是源于什么问题。
基于两周的工作，实现了一个基本功能完备的demo程序，已经对其进行了封装，可以满足其他组的模块调用。后续工作就是在功能进行优化。