文本相似度余弦相似度算法原理

最新推荐文章于 2024-05-18 16:30:25 发布

lijieshare

最新推荐文章于 2024-05-18 16:30:25 发布

阅读量1.5k

点赞数

分类专栏：自然语言处理文章标签：文本相似度余弦相似度算法原理

余弦相似度基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，预处理主要是进行中文分词和去停用词，分词。

第二步，列出所有的词。

第三步，计算词频。

第四步，写出词频向量。

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

余弦相似度缺陷

这类算法没有很好地解决文本数据中存在的自然语言问题，即同义词和多义词。这样对于搜索的精度产生很大的影响。

衡量文本相似度的几种手段：

（1）最长公共子串（基于词条空间）

（2）最长公共子序列（基于权值空间、词条空间）

（3）最少编辑距离法（基于词条空间）

（4）汉明距离（基于权值空间）

࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
文本相似度余弦相似度算法原理

余弦相似度基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。第一步，预处理主要是进行中文分词和去停用词，分词。第二步，列出所有的词。第三步，计算词频。第四步，写出词频向量。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。余弦相似度缺陷这类算法没有很好地解决文本数据中存在的自然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。