python中文近义词工具_Synonyms: 中文近义词工具包

最新推荐文章于 2023-08-07 15:52:57 发布

VIP文章 weixin_39717152

最新推荐文章于 2023-08-07 15:52:57 发布

阅读量1.6k

点赞数 1

文章标签： python中文近义词工具

Synonyms

Chinese Synonyms for Natural Language Processing and Understanding.

最近需要做一个基于知识图谱的检索，但是因为知识图谱中存储的都是标准关键词，所以需要对用户的输入进行标准关键词的匹配。目前很缺乏质量好的中文近义词库，于是便考虑使用word2vec训练一个高质量的同义词库将《非标准表述》映射到《标准表述》，这就是Synonyms的起源。

在经典的信息检索系统中，相似度的计算是基于匹配的，而且是Query经过分词后与文档库的严格的匹配，这种就缺少了利用词汇之间的“关系”。而word2vec使用大量数据，使用上下文信息进行训练，将词汇映射到低维空间，产生了这种“关系”，这种“关系”是基于距离的。有了这种“关系”，就可以进一步利用词汇之间的距离进行检索。所以，在算法层面上，检索更是基于了“距离”而非“匹配”，基于“语义”而非“形式”。

首先需要语料，我们采用了开放的大规模中文语料——维基百科中文语料。

（1）下载维基百科中文语料。

（2）繁简转换。

（3）分词。

使用gensim自带的word2vec包进行词向量的训练。

（1）下载gensim。

（2）输入分词之后的维基语料进行词向量训练。

（3）测试训练好的词的近义词。

具体操作访问

<

最低0.47元/天解锁文章

weixin_39717152

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python中文近义词工具_Synonyms: 中文近义词工具包

SynonymsChinese Synonyms for Natural Language Processing and Understanding.最近需要做一个基于知识图谱的检索，但是因为知识图谱中存储的都是标准关键词，所以需要对用户的输入进行标准关键词的匹配。目前很缺乏质量好的中文近义词库，于是便考虑使用word2vec训练一个高质量的同义词库将《非标准表述》映射到《标准表述》，这就是S...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。