【自然语言处理】TF/IDF算法

TF/IDF算法

前言

当我们去了解一篇文章是不是我们所需要时就要去看摘要,看关键字,而对于关键字的提取使用的主要流行的算法就是IF/IDFTextRank算法,此篇博文重点是对IF/IDF算法的学习。

背景介绍

      1:IF/IDF全称Term Frequency-Inverse Document Frequency,中文名称:词频-逆文档频次算法,它是一中基于统计的计算方法。
      2:词频-逆文档频次算法(TF/IDF)常用于评估一个文档集中一个词次对某份文档的重要程度。试想一下,一个词对于一个文章越重要,说明这个词越能说明它是关键词。

      3:词频-逆文档频次算法(TF/IDF)是由两部分组成,其中TF算法是用于统计一个词在一篇文档出现的频次,IDF算法是统计一个词在文档集的多少个文档中出现。

基本思想

  • TF算法
          一个词在文档中出现的次数越多,则其对文档的表达能力也就越强。
  • IDF算法
          如果一个词在越少的文档中出现,则其对文档的区分能力也就是越强。

公式说明

  • TF算法
    t f i j = n i j ∑ k n k j tf_{ij=\frac{n_{ij}}{\sum_k n_{kj}}} tfij=knkjnij
  1. n i j n_{ij} nij是表示词 i i i在文档 j j j中出现频次
  2. ∑ k n k j \sum_k n_{kj} knkj表示统计文档中每个词出现次数的总和
  3. t f i j tf_{ij} tfij就是它的概率

  • IDF算法
    i d f i = l o g ( ∣ D ∣ 1 + ∣ D i ) idf_i=log(\frac{|D|}{1+|D_i}) idfi=log(1+DiD)
  1. ∣ D ∣ |D| D是文档集中总文档数
  2. ∣ D i ∣ |D_i| Di是文档集中出现词 i i i的文档数量,分母加 1 1 1是为了采用拉普拉斯平滑,避免有部分新的词没有在语料库中出现过导致分母为零的情况出现。

  • TF-IDF算法
    t f × i d f ( i , j ) = t f i j × i d f i = n i j ∑ k n k j × l o g ( ∣ D ∣ 1 + ∣ D i ) tf×idf(i,j)=tf_{ij}×idf_i={\frac{n_{ij}}{\sum_k n_{kj}}}×log(\frac{|D|}{1+|D_i}) tf×idf(i,j)=tfij×idfi=knkjnij×log(1+DiD)
    说明
    计算得到的 t f × i d f ( i , j ) tf×idf(i,j) tf×idf(i,j) 的值越高说明此词就越适合作为关键词,当然对于关键词可能不止一个,可以根据 t f − i d f tf-idf tfidf的由大到小排序取前 n n n个作为关键词。

说明
此次关于TF/IDF算法的学习参考的资料是《python自然语言处理实战核心技术与算法》

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾继康

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值