山东大学2018级项目实训2021-7-11

小组成员共同完成了基于关键词的语义泛化系统的开发,涉及腾讯800万词向量计算同义词。工作包括数据预处理、词向量计算、同义词搜索等功能。遇到的问题包括内存限制、keyerror异常以及可能出现的反义词误判。目前实现了一个基础版的demo,后续将进行功能优化。
摘要由CSDN通过智能技术生成

山东大学2018级项目实训2021-7-11:

时间:2021年7月10日-7月11日
项目题目:基于关键词的语义泛化系统

1.具体工作:

总结这两周的工作内容,形成工作内容报告

小组成员:张宇(组长),欧阳吻,赵乐乐,安仕鹏
小组工作:语义泛化:
查找、计算关键词的同义词。
要求:
1)最基础的利用腾讯800万词向量计算同义词,最好再实现至少其他一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:关键词,输出:同义词

第一周,我们先是互相沟通,协调组员之间的合作以及任务分工。在任务分工之后,便开始了代码实现环节。我们先是借鉴了网上的有关资料,并结合了github上有关的开源项目,初步实现了将腾讯800万语料库保存为词典文件(保存词语),向量文件(保存词语的词向量,有200维)。但是,由于读取腾讯800万语料库时,要把所有行都读入内存,而我的工作设备的内存不能支持,所以,我的任务主要是负责将语料库中的词语进行过滤或者是分布式存储。第一种过滤方法,我将纯数字,带英文标点符号,且长度达于1的标点,重复3个以上,纯英文,英文字母+英文标点,中文标点,任何单个中文字符,三个及以上中文字符进行了过滤,最后只留下两个字的词语。第二种是进行数据切割,在组员的帮助下,我根据自己设备的内存大小,将语料库按每110万行进行切割,最终存储在8个文件中。

到了第二周,小组成员已经基于annoy模块实现了基本的搜索查询功能,我便就我第一周的工作输出,向量文件以及词典文件,作为该功能模块的输入,进行调试,搜索关键词的同义词。结果还可以,但是当查询关键词不在腾讯800万语料库时,会报keyerror错误。其次,组员还发现,当对关键词进行同义词搜索查询时,有时候会出现反义词比同义词更相似的情况。我们使用两个词向量之间的余弦距离来作为判断两个词相似情况,但出现这种情况,还不知道是源于什么问题。
基于两周的工作,实现了一个基本功能完备的demo程序,已经对其进行了封装,可以满足其他组的模块调用。后续工作就是在功能进行优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值