java 文本语义相似度计算,NLP 语义相似度计算整理总结

最新推荐文章于 2024-06-28 21:59:36 发布

Hdspn

最新推荐文章于 2024-06-28 21:59:36 发布

阅读量1.8k

点赞数

文章标签： java 文本语义相似度计算

本文详细介绍了NLP中用于语义相似度计算的多种方法，包括TF-IDF、余弦相似度、欧式距离、曼哈顿距离、Jaccard系数、皮尔森相关系数、SimHash和汉明距离、斯皮尔曼相关系数以及BM25算法，探讨了它们的原理和应用。并提供了Python代码示例。

摘要由CSDN通过智能技术生成

更新中

更新时间：

2019-12-03 18:29:52

写在前面：

本人是喜欢这个方向的学生一枚，写文的目的意在记录自己所学，梳理自己的思路，同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正，欢迎感兴趣的同学一起交流进步。

(参考文献在第四部分，侵删)

一、背景

在很多NLP任务中，都涉及到语义相似度的计算，例如：

在搜索场景下(对话系统、问答系统、推理等)，query和Doc的语义相似度；

feeds场景下Doc和Doc的语义相似度；

在各种分类任务，翻译场景下，都会涉及到语义相似度语义相似度的计算。

所以在学习的过程中，希望能够更系统的梳理一下这方面的方法。

二、基本概念

1. TF

Term frequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则

为该关键词在这篇文章中的词频。

2. IDF

Inverse document frequency指逆向文本频率，是用于衡量关键词权重的指数，由公式

计算而得，其中D为文章总数，Dw为关键词出现过的文章数。

3. 向量空间模型

向量空间模型简称 VSM，是 VectorSpace Model 的缩写。在此模型中，文本被看作是由一系列相互独立的词语组成的，若文档 D 中包含词语 t1,t2,…,tN，则文档表示为D(t1,t2,…,tN)。由于文档中词语对文档的重要程度不同，并且词语的重要程度对文本相似度的计算有很大的影响，因而可对文档中的每个词语赋以一个权值 w，以表示该词的权重，其表示如下：D(t1,w1；t2,w2；…,tN，wN)，可简记为 D(w1,w2,…,wN)，此时的 wk 即为词语 tk的权重，1≤k≤N。关于权重的设置，我们可以考虑的方面：词语在文本中的出现频率(tf)，词语的文档频率(df，即含有该词的文档数量，log N/n。很多相似性计算方法都是基于向量空间模型的。

三、语义相似度计算方法

1. 余弦相似度(Cosine)

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。

两个向量间的余弦值可以通过使用欧几里得点积公式求出：

余弦相似性θ由点积和向量长度给出，如下所示(例如，向量A和向量B)：

这里的

分别代表向量A和B的各分量。

问题：表示方向上的差异，但对距离不敏感。

关心距离上的差异时，会对计算出的每个(相似度)值都减去一个它们的均值，称为调整余弦相似度。

代码：

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。