对文本相似性的尝试二三事

最新推荐文章于 2020-06-05 17:47:50 发布

isbndyy

最新推荐文章于 2020-06-05 17:47:50 发布

阅读量173

点赞数

分类专栏： Python，数据分析机器学习文章标签： NLP Python

本文链接：https://blog.csdn.net/isbndyy/article/details/104018048

版权

Python，数据分析同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

通过查看已有模型可以看出，已经将出现频率小于5次的词语进行了剔除

因此，在放入实际数据进行计算相似度的时候，很多文本在语料库里面都是没有的

这就造成了结果的缺失

这种时候，可以选择word2vec的增量训练，也可以选择对输出结果手动

增量训练code：

model_test.build_vocab(sentences_cut,update=True) #update = True   
model_test.train(sentences_cut,total_examples=model_test.corpus_count,epochs=model_test.iter)

对于特殊文本我是这样处理的：

首先对文本进行分词

通过判断分词之后的每个词语之间的相似性

再得到整个文本的相似性，从而得出结论

但是这样也是特殊情况的，那就是有些词语是别名，所以无法匹配

现有结果的相似性也限于字面相似的文本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

isbndyy

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对文本相似性的尝试二三事

通过查看已有模型可以看出，已经将出现频率小于5次的词语进行了剔除因此，在放入实际数据进行计算相似度的时候，很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候，可以选择word2vec的增量训练，也可以选择对输出结果手动增量训练code：model_test.build_vocab(sentences_cut,update=True) #update = True ...
复制链接

扫一扫