自然语言处理3——句子相似度

最新推荐文章于 2024-06-28 21:59:36 发布

Vicky_xiduoduo

最新推荐文章于 2024-06-28 21:59:36 发布

阅读量810

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vicky_xiduoduo/article/details/127096760

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

句子相似度指的是两个句子之间相似的程度。

句子相似度的计算方法主要分为基于统计的方法和基于深度学习的方法。

① 欧式距离：多维空间两个点的绝对距离。 $d=|s_1-s_2|$

② 余弦相似度：用两个向量的夹角的余弦值来衡量相似度，首先对句子做embedding(词嵌入),在计算两个句子或本文的相似度。 $d = \frac{s_1 \cdot s_2}{|s_1|*|s_2|}$

③ TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率)：从词频率的角度出发计算一个词在一个文档和所有文档的频率。

TF是词频（Term Frequency）：表示词条（关键字）在文本中出现的频率，即某一类中词条w的出现的次数 / 该类中所有的词条数目。公式为：

$tf_{ij}=\frac{n_{i,j}}{\sum_{k}n_{k,j}}$

其中， $n_{ij}$ 是该词在文件 $d_j$ 中出现的次数。

IDF(逆向文件频率)：考虑单词的重要性。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到。公式为：

$idf_i = log\frac{|D|}{|{j:t_i \in d_j}|}$

其中， $|D|$ 是语料库中的文件总数， $|{j:t_i \in d_j}|$ 表示包含词语ti的文件数目。如果该醋鱼不在语料库中，就会导致分母为零，因此，一般情况下使用1+ $|{j:t_i \in d_j}|$

TF_IDF实际上就是TF*IDF，即 $tfidf(w)=td(d,w)*idf(w)$ ,通过这个公式的计算，可以得到句子的TF_IDF向量。

④ doc2vec,word2vec：用来创建词向量的模型，可以计算单个词到句子到文章的相似度。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理3——句子相似度

句子相似度表示：欧式距离，余弦相似度、TF_IDF、word2vec
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。