NLP
彩色电暖
这个作者很懒,什么都没留下…
展开
-
关于textRank在文本摘要中的应用(笔记)
在看hanLP的textRank应用于文本摘要时,不知道公式中的d和qi在具体文本中的含义,于是去看了下hanLP实现textRank的github源码here和BM25源码here,终于懂了,记录在此.textRank中图的点是句子,点与点之间的边的权值是句子与句子之间的相似度,假如一个文档中有D个句子,则权值矩阵就是D*D;句子Q和句子d的相似度怎么计算呢?首先把句子Q分词,每个单词是一个...原创 2019-04-11 15:04:02 · 474 阅读 · 0 评论 -
hanLP使用textRank进行关键字提取的java源码学习笔记
算法的说明在here源码在here需要求出每个单词的邻居单词,只要两个单词在同时出现在长度为5的窗口则成为邻居,这个相比用textRank进行文本摘要的不同点是:点(单词)之间权重w全为1, 求和部分的邻居的权重=邻居 的 邻居个数(邻居有几个邻居)单词构成的图是无向图,A是B的邻居,则B也是A的邻居源码部分笔记:getTermAndRank函数是核心函数,遍历所有单词,每次都把前面...原创 2019-04-11 17:34:23 · 579 阅读 · 0 评论