gensim提取一个句子的关键词_聊一聊 NLPer 如何做关键词抽取

微信公众号:NLP从入门到放弃​

有兴趣的去github看更多NLP相关知识总结:

https://github.com/DA-southampton/NLP_ability​github.com

关键词的提取,也可以称之为文本标签提取。

比如说,”今天这顿烧烤是真不错啊“,在这句话中,”烧烤“这个词就可以被认为是一个关键词,或者说这个句子的一个标签。

这个标签在一定程度上能够表现出这个句子的含义,比如这个”烧烤“,如果用在文本分类任务中,可以隐含带有”美食“这个类别的信息。

这些标签有些时候也可以用在推荐系统的召回,比如直接按照”烧烤“这个标签做一路召回。

对于关键词的提取一般来说分为抽取式和生成式。其实类比到摘要,其实也是分为抽取式和生成式。

生成式有一个缺点就是有些结果不可控,这其实还挺要命的。

对于抽取式,就是从现有的数据中拿出来词组。最差的结果也就是拿出的单词并不重要,不是我们想要的。

我们的重点是在抽取式提取关键词。

关键词的提取可以分为两个步骤:召回+排序

1.召回

召回就是得到文本中的候选关键词,也就是得到这个句子中有可能是关键词的词汇。

这一步,可以做的方法有很多,比如

  1. 我们有积累的关键词词库,在这里直接匹配出来。
  2. 一些符合的词性的候选词,比如我挑选出名词作为候选词
  3. 还可以基于一些统计特征提出候选词,比如TF-IDF(有些时候统计特征也会用在排序中作为特征)
  4. 基于一些规则,比如一个句子出现了人名地名,书名号中词,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值