使用 TF-IDF 算法将文本向量化

使用 TF-IDF 算法将文本向量化

理解 TF-IDF 算法

TF-IDF 算法

TF-IDF 算法通过分配权重来反映每个词的重要程度,根据权重对一篇文章中的所有词语从高到低进行排序,权重越高说明重要性越高,排在前几位的词就可以作为这篇文章的关键词。所以 TF-IDF 算法可以用来提取关键词。

TF-IDF 全称为 term frequency–inverse document frequency

算法分为两部分: 词频(TF) 和 逆文档频率(IDF)

词频(TF) = 某个词在文章中的出现次数 / 文章总词数
逆文档频率(IDF) = log( 文章总数 / (包含该词的文章数+1) )

分成两部分理解的话就是,一个词的词频越高说明它越重要,逆文档频率越高说明它越普遍,越普遍则代表性越差。所以,词频与最终的权重呈正比,逆文档频率与最终的权重呈反比。

在使用 TF-IDF 算法之前,需要先对文本进行预处理,如分词、去除停用词。在运算之前,需要先统计每篇文章中的每个词语出现的次数。

统计词语出现次数

假设有一份包含三篇文章的数据,现在对三篇文章中的词语进行次数统计。下面使用的数据已经完成分词和去除停用词的步骤。

>>> docList = []
>>> for item in doc:
...   wordDic = {}
...   wordList = item.strip().split()
...   for word in wordList:
...     wordDic[word] = 
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值