文本特征提取之TFIDF

TF-IDF

  • 是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。
  • 主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • 作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
  • 优点:能过滤掉一些常见的却无关紧要的词语,同时保留影响整个文本的重要词语。
  • 公式如下:
    在这里插入图片描述

tfidfi,j表示词频 tfi,j 和倒文本词频idfi,j的乘积。TF-IDF值越大,表示该特征词对这个文本的重要性越大。


TF
  • TF(Term Frequency):表示某个关键词在整篇文章中出现的频率。

  • 计算公式:
    在这里插入图片描述

  • 其中,分子为特征词 t 在文本 dj 中出现的次数,分母则是文本dj中所有特征词的个数。计算的结果即为某个特征词的词频。


IDF
  • IDF(Invers Document Frequency):表示计算倒文本频率。(文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文本频率顾名思义,它是文本频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。)
  • 计算公式:
    在这里插入图片描述
  • |D| 表示语料中文本的总数,|Dti| 表示文本中包含特征词ti的数量。为防止该词语在语料库中不存在,即分母为0,使用 1+|Dti| 作为分母
sklearn工具包下的tfidf
  • sklearn.feature_extraction.text.TfidfVectorizer
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值