机器学习-特征提取(二)

本文探讨了非结构化文本数据处理中的词袋模型,介绍特征表示方法——词袋法,并对比了CountVectorizer和TfidfVectorizer。TfidfVectorizer通过考虑词汇在文本中的频率及全局文档频率,展现出在预测准确性、平均精度、召回率和F1指标上的优势。
摘要由CSDN通过智能技术生成

文本数据进行处理时,有些文本不是结构化存储的,处理这样的数据,比较常用的文本特征表示方法为词袋法,不考虑词语出现的顺序,只是将训练文本中每个出现过的词汇单独视为一列特征。而特征数值的常见计算方式有两种:CountVectorizer和TfidVectorizer。对于每一条训练文本,CountVectorizer只考虑每种词汇在该条训练文本中出现的频率;而TfidVectorizer除了考量某一词汇在当前文本中出现的频率之外,同时关注包含这个词汇的文本条数的倒数。相比之下,训练样本越多,TfidVectorizer更加具有优势。

#导入新闻文本数据抓取器
from sklearn.datasets import fetch_20newsgroups
#从互联网上下载即时新闻样本,subset='all'下载近2万条文本存储在变量news中
news = fetch_20newsgroups(subset='all')
#导入train_test_split模块用于分割训练集
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25,random_state=33)
from sklearn.feature_extraction.text import CountVectorizer
count_vec = CountVectorizer()
#使用词频统计的方式将原始数据和测试文本转化为特征向量
X_count_train = count_vec.fit_transform(X_train)
X_count_test = count_vec.transform(X_te
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值