gensim提取一个句子的关键词_【关于文本关键词抽取】 那些的你不知道的事

本文介绍了关键词提取方法,重点讨论了TF-IDF和TextRank算法。TF-IDF通过词频和逆文档频率计算词语重要性,而TextRank则基于词语共现关系进行关键词抽取。这两种方法广泛应用于搜索引擎、关键词提取和文本摘要。
摘要由CSDN通过智能技术生成

关键词提取

作者:杨夕
github : https:// github.com/km1994/text_ feature_extraction

常用的关键词提取方法介绍

  • 方法类别介绍
    • TF-IDF关键词提取算法
    • TextRank关键词提取算法
    • LDA主题模型关键词提取算法
    • 互信息关键词提取算法
    • 卡方检验关键词提取算法
    • 基于树模型的关键词提取算法

TF-IDF关键词提取算法

理论基础

介绍

  • 类型:一种统计方法
  • 作用:用以评估句子中的某一个词(字)对于整个文档的重要程度;
  • 重要程度的评估:
  • 对于 句子中的某一个词(字)随着其在整个句子中的出现次数的增加,其重要性也随着增加;(正比关系)【体现词在句子中频繁性】
  • 对于 句子中的某一个词(字)随着其在整个文档中的出现频率的增加,其重要性也随着减少;(反比关系)【体现词在文档中的唯一性】
  • 重要思想:
  • 如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;

计算公式

  • 词频 (Term Frequency,TF)
  • 介绍:体现 词 在 句子 中出现的频率;
  • 问题&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值