java 向量相似度计算 tf-idf_使用 TF-IDF 加权的空间向量模型实现句子相似度计算...

最新推荐文章于 2021-03-07 06:32:24 发布

米西西

最新推荐文章于 2021-03-07 06:32:24 发布

阅读量422

点赞数 1

文章标签： java 向量相似度计算 tf-idf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29202213/article/details/114154274

版权

这篇博客介绍了如何使用TF-IDF加权的空间向量模型来计算句子的相似度。首先，通过分词将句子转换为词序列，然后构建词的向量空间模型。接着，利用TF-IDF算法为词向量的分量加权，其中TF反映词在句子中的频率，IDF则考虑词在整个语料库中的稀有程度。加权后的向量用于计算余弦相似度，从而提高句子相似度计算的准确性。

摘要由CSDN通过智能技术生成

使用 TF-IDF 加权的空间向量模型实现句子相似度计算

字符匹配层次计算句子相似度

计算两个句子相似度的算法有很多种，但是对于从未了解过这方面算法的人来说，可能最容易想到的就是使用字符串匹配相关的算法，来检查两个句子所对应的字符串的字符相似程度。比如单纯的进行子串匹配，搜索 A 串中能与 B 串匹配的最大子串作为得分，亦或者用比较常见的最长公共子序列算法来衡量两个串的相似程度，使用编辑距离算法来衡量等。

上述基于字符匹配层次的算法一定程度上都可以计算出两个句子的相似度，不过他们只是单纯的从字符角度来计算，但是我们的句子都是有一定含义的，且句子中的每个词不应当被视为无关字符组合，而是不可分割的一个实体。所以这就需要对句子进行分词操作。在分词后，基于字符匹配的算法就应当以词组为单位进行匹配而不是单个字符。

向量空间模型

空间向量模型首先要对待处理的两个句子进行分词，这将会得到两个由词组成的序列。比如两个句子：

A：你怎么样？ B：你还好吗？

分词后的结果就为：

A：["你","怎么样"]

B：["你","还好吗"]

然后将两个列表取并集得到列表 C：["你","怎么样","还好吗"]；如果将

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java 向量相似度计算 tf-idf_使用 TF-IDF 加权的空间向量模型实现句子相似度计算...

使用 TF-IDF 加权的空间向量模型实现句子相似度计算字符匹配层次计算句子相似度计算两个句子相似度的算法有很多种，但是对于从未了解过这方面算法的人来说，可能最容易想到的就是使用字符串匹配相关的算法，来检查两个句子所对应的字符串的字符相似程度。比如单纯的进行子串匹配，搜索 A 串中能与 B 串匹配的最大子串作为得分，亦或者用比较常见的最长公共子序列算法来衡量两个串的相似程度，使用编辑距离算法来衡量...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。