TYD-python数据分析与机器学习实战(文本挖掘部分笔记)

本文介绍了Python在文本数据分析中的应用,包括使用TF-IDF进行关键词提取,通过文档相似度计算(如余弦相似度)来评估文本相关性,利用jieba的TF-IDF功能和LDA主题模型进行文本分析。重点讨论了TF-IDF的原理以及LDA如何揭示文本中的主题。
摘要由CSDN通过智能技术生成

一、19章 Python文本数据分析:新闻分类任务

1.1 TF-IDF:关键词提取

TF就是Term Frequency 词频,IDF 是Inverse Document Frequency

1.对语料/文本进行词频统计(Term Frequency),比如说对《中国的蜜蜂养殖》这个文本进行统计
2.出现最多的是:的,是,在等常用词,也就是停用词,要删去的
3.剩下的有:中国,蜜蜂,养殖,这三个词经常出现,但是很明显这三个词重要性不一样,就比如说中国,这个词在所有文本中都太常见了,在这个《中国的蜜蜂养殖》文本中就不太重要。
4.而蜜蜂,养殖这两个词对于其他文本来说出现的次数就少,对于《中国的蜜蜂养殖》来说就很重要,突出了主题

IDF:逆文档频率
如果某个词很少见,但在某个文档中出现次数很多,那么它很可能反映这个文档的特性。正是我们要找的关键词
在这里插入图片描述
在这里插入图片描述
log通常以10为底,当语料库的文档总数越多,但包含该词的文档数越小时,越能说明这个词越重要

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值