词袋模型与TF-IDF模型

本文介绍了词袋模型和TF-IDF的概念及其区别,通过实例展示了如何使用Python和pandas进行文本特征提取。在词袋模型部分,解释了词集与词袋的区别,并提供了实践代码。接着,详细描述了TF-IDF的重要性计算原理,以及在实际应用中的作用。最后,演示了在sklearn中实现TF-IDF模型并与词袋模型结合的步骤。
摘要由CSDN通过智能技术生成

特征提取方法有两大主要方式,一种是词袋模型,还有一种就是TF-IDF 模型(term frequency-inverse document frequency,词频与逆向文件频率)

1、词袋模型

1.1 词袋和词集

文本特征提取有两个非常重要的模型
词集模型:单词构成的集合,集合自然每个元素只能有一个,也就是词集中的每个单词都只有一个
词袋模型:在词集的基础上,如果一个单词在文档中出现不止一次,统计其出现的次数。

二者本质上的区别,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,而词袋还关注出现了多少次。

1.2 实践

现在我们来进行词袋模型的实践:

首先来导入相关的函数库:

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

导入数据

data = pd.read_csv("./dataset/Movies_dirty.csv")
data['Movie description'] = data.iloc[:,1]+' '+data.iloc[:,-1]#合并两列数据

这里我使用的是movie的数据集,包括movie的name,director,year,…,description属性,只使用name和description两个属性,并对这两列数据进行合并。如果找不到相关数据也可以随便用一个简单的数据集来实验。

corpus = []
for i in data['Movie description']:
    corpus.append(i)

在这里插入图片描述

将数据放到列表中,显示部分,两个逗号之间表示一条数据。

词袋模型:

vectorizer = CountVectorizer(
  • 6
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sharon@zhang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值