关键词提取-TFIDF(一)

TF-IDF是一种统计方法,用于评估词在文件中的重要性。它结合词频(TF)和逆文档频率(IDF)计算权重,广泛应用于搜索引擎、关键词提取、文本相似性和文本摘要。虽然简单快速,但TF-IDF算法忽略了词的位置信息和某些低频但重要的词汇。
摘要由CSDN通过智能技术生成

系列文章

✓ 词向量
✗Adam,sgd
✗ 梯度消失和梯度爆炸
✗初始化的方法
✗ 过拟合&欠拟合
✗ 评价&损失函数的说明
✗ 深度学习模型及常用任务说明
✗ RNN的时间复杂度
✗ neo4j图数据库

分词、词向量

关键词提取-TFIDF

TfidfVectorizer

基本介绍
  • TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  • 比如:为了获得一篇文档的关键词,我们可以如下进行
  • 对给定文档,我们进行"词频"(Term Frequency,缩写为TF)
  • 给每个词计算一个权重,这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。
算法明细
  • 基本步骤
    • 1、计算词频。考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

      词频:TF = 文章中某词出现的频数

      词频标准化:tf-TFIDF_2
    • 2、计算逆文档频率。如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。

      逆文档频率:关键词提取-TFIDF_3
      其中,语料库(corpus),是用来模拟语言的使用环境。
    • 3、计算TF-IDF。可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比
      T F − I D F = T F ∗ I D F TF-IDF = TF * IDF
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值