计算文本相似度

最新推荐文章于 2023-02-23 10:57:54 发布

alijwook

最新推荐文章于 2023-02-23 10:57:54 发布

阅读量413

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alijwook/article/details/88965436

版权

不仅要考虑语义，还要考虑顺序。
计算距离的方式：余弦，欧式
在这里插入图片描述
1.向量表示
（1）Distributed representation 最大的贡献就是让相关或者相似的词，在距离上更接近了。
（2）word2vec模型：
通过神经网络机器学习算法来训练N-gram 语言模型，并在训练过程中求出word所对应的vector的方法。利用了词的上下文，语义信息更为丰富.
由于文本的长度各异，我们可能需要利用所有词向量的平均值作为分类算法的输入值，从而对整个文本文档进行分类处理。
(3)doc2vec
然而，即使上述模型对词向量进行平均处理，我们仍然忽略了单词之间的排列顺序对情感分析的影响。即上述的word2vec只是基于词的维度进行"语义分析"的，而并不具有上下文的"语义分析"能力。除了增加一个段落向量以外，这个方法几乎等同于 Word2Vec。在一个句子或者文档的训练过程中，段落 ID 保持不变，共享着同一个段落向量。
DM 试图在给定上下文和段落向量的情况下预测单词的概率。
DBOW 则在仅给定段落向量的情况下预测段落中一组随机单词的概率。

https://www.cnblogs.com/maybe2030/p/5427148.html
https://www.cnblogs.com/iloveai/p/gensim_tutorial2.html
2.方法
表示为向量，计算距离
https://cloud.tencent.com/developer/news/218062
3.在使用doc2vec时出现了个问题，模型加载1次，同一段文本推测两次向量，两次的结果差距很多？
gensim 的说明文档建议多次训练数据集并调整学习速率或在每次训练中打乱输入信息的顺序。
参考 https://blog.csdn.net/qimiejia5584/article/details/78975810
https://blog.csdn.net/leitouguan8655/article/details/80533293
4.Doc2Vec和Logistic回归的多类文本分类
https://www.codercto.com/a/40261.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算文本相似度

1.向量表示https://www.cnblogs.com/maybe2030/p/5427148.htmlhttps://www.cnblogs.com/iloveai/p/gensim_tutorial2.html2.方法表示为向量，计算距离https://cloud.tencent.com/developer/news/218062深度学习https://blog.csdn.n...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。