两个句子相似度计算公式:
TextRank公式:
注意:这里 S 代表的不是PageRank中的分数,它代表的是 Sentence ;代表的是每一个句子。
Si 代表的是第 i 个句子。
Wk 代表的是句子中第 k 个单词。
|Si| 代表的是句子中单词的个数。
{ Wk| Wk ∈ Si & Wk ∈ Sj } 代表着同时在 Si 和 Sj 中出现的单词。
分母使用对数可以抵消长句子在相似度计算上的优势(长句子包含相同单词的可能性更高)。
根据这个就可以求出两个句子之间的相似度,也就是推荐程度。
例子:
1:how are you
2: how do you do
相同词:how you
相似度:Similarity(S1,S2) = 2/(log(3),log(4))