NLP 关键词提取技术

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

关键词提取技术可以应用到自动形成文章摘要
分为有监督学习和无监督学习,有监督学习需要生成一个字典,然后让需要检测的文章去匹配这个字典。无监督学习则不需要,它是通过算法来直接提取关键字。

一、TF-IDF算法

这是一种基于统计学的算法,TF是指从文章中提取词频最高的词语,IDF是从一系列文章中提取使用率最低的词语,这样就可以方便对文章进行分类。

二、TextRank算法

textrank是基于pagerank得来的,PageRank是谷歌用于检测文章关联性,textrank词与词之间没有关联性,每个词不是与所有词都有关联性,也就是说文章的每一个词一开始都是白纸,是通过把词分组,计算每个词之间的权重,来得到关键词。
比如:世界 献血日 学校 团体 献血 服务
第一组:【世界 献血日 学校】
第二组:【献血日 学校 团体 】




# LSA/LSI/LDA算法
这一部分实际上是将关键词抽象的提取出来,文章中的关键词不一定会出现,比如 兔子 老虎 小猫,那么关键词应该是什么?“动物”。这一类算法就是为了解决这些问题的。

此文章只为了记录学习过程
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值