文本相似度笔记

最新推荐文章于 2023-10-16 07:58:56 发布

likong1019

最新推荐文章于 2023-10-16 07:58:56 发布

阅读量356

点赞数

文章标签：自然语言处理算法机器学习几何学数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/likong1019/article/details/106311040

版权

文本相似度的计算常用夹余弦值来计算；
1.为什么用夹角的余弦值类计算文本相似度更好？这里举一个例子
文本一般长短不一，
假设文本1内容：我喜欢看书；
文本2内容：我喜欢喜欢看看看书书书；
文本3 内容：我喜欢看图；
将三个文本向量映射到高维空间后发现欧氏距离文本1，3比文本1，2更近，但是能说明文本3比文本2更接近文本1吗？
实际如果看三个向量的夹角，发现文本2与文本1的夹角要比文本3与文本1的夹角小，所以通过夹角来比较相似，在这里看是更合理的。

在这里插入图片描述
由以上看出使用夹角余弦对文本相似的进行比较是更好的。
比较一堆文本与某一给出文本的相似度一般步骤：
1）对已知文本及另外一堆文本分词（结巴），去停用词；
2）提取比较文本关键词（一般取前多少个）
3）合并成词袋（每一个文本都与已知文本形成一个词袋），对于当前两比较分别计算两比较文本在词袋中对应词的词频
4）如已知文本中关键词的前三（根据需要确定）在被比较文本中出现，3）步骤中的计算的词频增大；
5）根据计算的夹角余弦值比较当前文本与已知文本相似度；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本相似度笔记

文本相似度的计算常用夹余弦值来计算；1.为什么用夹角的余弦值类计算文本相似度更好？这里举一个例子文本一般长短不一，假设文本1内容：我喜欢看书；文本2内容：我喜欢喜欢看看看书书书；文本3 内容：我喜欢看图；将三个文本向量映射到高维空间后发现欧氏距离文本1，3比文本1，2更近，但是能说明文本3比文本2更接近文本1吗？实际如果看三个向量的夹角，发现文本2与文本1的夹角要比文本3与文本1的夹角小，所以通过夹角来比较相似，在这里看是更合理的。由以上看出使用夹角余弦对文本相似的进行比较是更好的。比较
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。