TextRank文档摘要

最新推荐文章于 2024-04-08 09:52:28 发布

haimizhao

最新推荐文章于 2024-04-08 09:52:28 发布

阅读量869

点赞数

分类专栏：机器学习与自然语言处理文章标签：文本摘要

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haimizhao/article/details/80848635

版权

机器学习与自然语言处理专栏收录该内容

16 篇文章 0 订阅

订阅专栏

TextRank文档摘要

思想：借用pagerank的思路，把词和句看成”顶点”，把他们的共现看成”边”，可以认为，存在共现关系，即可视为一种”推荐”，通过迭代，使得到更多推荐的节点取得更高的分值，用以提取关键词、关键句子。

pagerank算法

S (V i) = (1 - d) + d \sum j \in I n (V j) 1 O u t ( V j ) S (V j)

$S(V_i)=(1-d)+d\sum_{j \in In(V_j)} \frac {1}{Out(V_j)} S(V_j)$
某网页Vi的得分，由两个部分构成，其中1-d是为防止出现零值，d右边的部分，是引用该网页的各网页Vj的投票之和，投票值等于该网页的打分S(Vj)除以它的出度，d一般取经验值0.85

应用到关键词提取和句子提取上，也是类似的，只是作者在pagerank的公式上作了修改，加入了得分权重，而在原始的pagerank中，所有的出链被当作是完全同等的，因此公式变为

S (V i) = (1 - d) + d \sum j \in I n (V j) w j i \sum V k \in O u t ( V j ) w j k S (V j)

$S(V_i)=(1-d)+d\sum_{j \in In(V_j)} \frac {w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}} S(V_j)$

关键词提取

过滤停用词和不重要的词之后，把有意义的词看成顶点，窗口内的上下文共现的词与之连成边。实现表明，窗口大小为2,即只考虑相邻词时，效果最好，实现中只抽取了unigram，如果被选取的关键词在段落中相邻，则将之拼在一起作为phrase，并且，在只选取了名词和形容词时效果最好。

实验的对比对象为当时的最好结果，它用的是有监督方法，特征上考虑了文档内词频、数据集词频、首次出现的相对位置和postag序列

实验还对比了有向图的结果，即把词的出现顺序作为出/入方向，但结果不如无向图，且正向逆向的结果完全相等。

重要句子提取

抽取句子时，句子为顶点，句子内存在共同的词看成连接，把句子的相似度作为权重

由于该方法是无监督方法，对语料和计算量要求不高，且效果比较好，目前是文本摘要的主流方法之一

文章链接
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。