关键词提取算法

Table of Contents

概述

TF-IDF算法

传统算法

加权变种

TextRank算法

PageRank

TextRank

LSA/LSI/LDA算法

LSA/LSI

LDA


概述

关键词是代表文章重要内容多一组词,对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词,如果我们可以准确的将所有文档都用几个简单的关键词描述出来,就能使人们便捷地浏览和获取信息。类似于NLP其它处理技术,关键词提取算法一般也可以分为有监督和无监督两类。

有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档和词表中每个词都匹配程度,以类似打标签的方式,达到关键词提取的效果。这种方法精度较高,但是需要大批量的标注数据。另外,每天都有大量新的信息出现,人工维护词表需要很高的人力成本。相对于有监督的方法,无监督的方法既不需要维护词表,也不需要人工标准语料辅助训练。因此这类算法在工程中应用较广,常见的无监督学习算法有TF-IDF算法、TextRank算法和主题模型算法。

 

TF-IDF算法

传统算法

TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法)是一种基于统计的计算方法,常用于文档集中一个词对某份文档的重要程度。详参TF-IDF与余弦相似性的应用(一):自动提取关键词

加权变种

传统的TF-IDF算法仅考虑了词的两个统计信息,对文本的信息利用程度很少。在某些特定的场景中,加上一些辅助信息,例如每个词的词性、出现的位置等,能对关键词提取的效果起到很好的提高作用。在文本中,名词作为一种定义现实实体的词,带有更多的关键信息,可以赋予更高的权重;在一些场景中,文档的起始段落河末尾段落比其它部分的文本更重要,可以对出现在这些位置等词赋于更高权重。结合具体场景,对算法进行合适的改造,可以对结果产生更好的作用。

 

TextRank算法

TF-IDF算法需要统计每个词在语料库中的多少个文档中出现过,主题模型要通过对大规模的文档学习来发泄文档的隐含主题。TextRank与这些算法有一点不同:它可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。该算法最早用于文档的自动摘要,基于句子维度的分

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值