关于textRank在文本摘要中的应用(笔记)

在看hanLP的textRank应用于文本摘要时,不知道公式here中的d和qi在具体文本中的含义,于是去看了下hanLP实现textRank的github源码here和BM25源码here,终于懂了,记录在此.
textRank中图的点是句子,点与点之间的边的权值是句子与句子之间的相似度,假如一个文档中有D个句子,则权值矩阵就是D*D;
句子Q和句子d的相似度怎么计算呢?首先把句子Q分词,每个单词是一个语素qi,然后计算每个语素和句子d的相似度,然后把句子Q的所有语素与句子d的相似度加W权求和,即得句子Q和句子d的相似度.
那么语素与句子d的相似度(R(qi,d))和权重怎么求?
权重是该语素的IDF,IDF的分母表示含有语素qi的句子个数n,分子是不含qi的句子树(D-n)
R(qi,d)公式中的fi表示qi在d句子中出现的次数,dl是句子d的长度(单词的个数),avgdl是所有D个句子长度的平均值
over

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值