随着生活节奏的加快,我们希望在最短的时间里面汲取到想要的信息。想象一下,清晨的你坐在餐桌前(当然程序员可能没有清晨~~哈哈哈哈)喝着牛奶打开新闻,大量的信息映入你的眼帘,你在一堆push给你的讯息中挣扎,可能到最后都来不及看到你最感兴趣的。这个时候,如果有人早已经帮你看过一遍所有的内容并且用最简明的方式告诉你,每一篇新闻的关键词、关键句,那么你就可以在短时间轻松获取大量的信息,有选择的深入了解。
它,就是今天的主角---------textrank
在最开始做文本分类的时候,有接触过TF-IDF来统计一篇文章中的词频,但是这种方式没有充分考虑词之间的语义关系。所以我们希望在进行关键句、词抽取时多一些考虑。
从大的方向上来说,可以分为两类:抽取式和生成式。
(1)抽取式:从一篇文章中抽取出最能代表当前文章的句子,或者最能代表当前句子的单词。
(2)生成式:难度增加,涉及到深度学习领域提取文章或者句子的语义信息,像人一样得到关于句子或者文章的总结。
textrank算法显然属于抽取式
它是由EMNLP 2004 : TextRank Bringing Order into Texts首先提出。是一种无监督的抽取方式,在论文中主要介绍了在NLP的关键词抽取和关键句抽取两个方面。
textrank算法来自于pagerank算法
之前在做网页信息检索的时候有接触过,他的主要思想是说一个网页的重要性往往是由和他有链接的网页数量以及该网页的重要性决定的。