自然语言处理3——句子相似度

句子相似度指的是两个句子之间相似的程度。

句子相似度的计算方法主要分为基于统计的方法和基于深度学习的方法。

① 欧式距离:多维空间两个点的绝对距离。 d=|s_1-s_2|

② 余弦相似度:用两个向量的夹角的余弦值来衡量相似度,首先对句子做embedding(词嵌入),在计算两个句子或本文的相似度。 d = \frac{s_1 \cdot s_2}{|s_1|*|s_2|}

③ TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率):从词频率的角度出发计算一个词在一个文档和所有文档的频率。

TF是词频(Term Frequency):表示词条(关键字)在文本中出现的频率,即某一类中词条w的出现的次数 / 该类中所有的词条数目。公式为:

tf_{ij}=\frac{n_{i,j}}{\sum_{k}n_{k,j}}

其中,n_{ij}是该词在文件d_j中出现的次数。

IDF(逆向文件频率):考虑单词的重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到。公式为:

idf_i = log\frac{|D|}{|{j:t_i \in d_j}|}

其中,|D|是语料库中的文件总数,|{j:t_i \in d_j}|表示包含词语ti的文件数目。如果该醋鱼不在语料库中,就会导致分母为零,因此,一般情况下使用1+|{j:t_i \in d_j}|

TF_IDF实际上就是TF*IDF,即tfidf(w)=td(d,w)*idf(w),通过这个公式的计算,可以得到句子的TF_IDF向量。

④ doc2vec,word2vec:用来创建词向量的模型,可以计算单个词到句子到文章的相似度。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值