Textrank算法初体验

随着生活节奏的加快,我们希望在最短的时间里面汲取到想要的信息。想象一下,清晨的你坐在餐桌前(当然程序员可能没有清晨~~哈哈哈哈)喝着牛奶打开新闻,大量的信息映入你的眼帘,你在一堆push给你的讯息中挣扎,可能到最后都来不及看到你最感兴趣的。这个时候,如果有人早已经帮你看过一遍所有的内容并且用最简明的方式告诉你,每一篇新闻的关键词、关键句,那么你就可以在短时间轻松获取大量的信息,有选择的深入了解。
它,就是今天的主角---------textrank
在最开始做文本分类的时候,有接触过TF-IDF来统计一篇文章中的词频,但是这种方式没有充分考虑词之间的语义关系。所以我们希望在进行关键句、词抽取时多一些考虑。

从大的方向上来说,可以分为两类:抽取式和生成式。
(1)抽取式:从一篇文章中抽取出最能代表当前文章的句子,或者最能代表当前句子的单词。
(2)生成式:难度增加,涉及到深度学习领域提取文章或者句子的语义信息,像人一样得到关于句子或者文章的总结。

textrank算法显然属于抽取式
它是由EMNLP 2004 : TextRank Bringing Order into Texts首先提出。是一种无监督的抽取方式,在论文中主要介绍了在NLP的关键词抽取和关键句抽取两个方面。

textrank算法来自于pagerank算法
之前在做网页信息检索的时候有接触过,他的主要思想是说一个网页的重要性往往是由和他有链接的网页数量以及该网页的重要性决定的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值