使用TF-IDF算法进行数据处理(附代码)

本文详细介绍了TF-IDF算法,如何通过计算词频和逆文档频率来确定文本中高频且重要的词汇。步骤包括在单篇文章中计算词频、语料库中计算IDF,并结合两者得到TF-IDF。实例演示了Python中jieba库的使用,同时讨论了算法的优势与不足。
摘要由CSDN通过智能技术生成

· 什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一种加权技术,用于文本数据的挖掘与清洗。

· 使用情境

现有大段文本数据,希望从中获得高频、有效的词汇。

e.g. 文本数据:“今天天气很好,适合出去玩。”→n.天气;a.好;v.出去/玩

(Task:从中找出类似的词汇并统计词频)

· 算法步骤

如上,TF-IDF算法实现分为三步:

1.单篇文章中,计算TF:

Denote Xi=词汇i出现次数,X=文章总词汇数

TF=\frac{Xi}{X}

#为什么要计算TF?

A:为了看一篇文章/一段文字中词汇i出现的频率

2.语料库中,计算IDF:

Denote Y=语料库中文章总数,Yi=包含词汇i的文章数

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值