机器学习------特征工程CountVectorizer,DictVectorizer,TfidfVectorizer

特征工程是提升预测模型准确性的关键步骤,涉及原始数据转换为更具代表性的特征。本文介绍了如何利用CountVectorizer、DictVectorizer和TfidfVectorizer对文本数据进行特征值化。通过jieba分词与TfidfVectorizer,可以计算词频并确定词的重要性,解决因词稀疏性带来的存储和运算问题,采用scipy.sparse矩阵结构来优化处理。
摘要由CSDN通过智能技术生成

特征工程是什么?

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

特征抽取对文本等数据进行特征值化 特征值化是为了计算机更好的去理解数据**

from sklearn.feature_extraction.text import CountVectorizer
#实例化
vector=CountVectorizer()
#调用fit_transform输入并转换数据
res=vector.fit_transform(['Life is short ,i like python','Life is too long,i dislike python'])
#打印结果
print(vector.get_feature_names())
print(res.toarray())

在这里插入图片描述

from sklearn.feature_extraction import DictVectorizer
#实例化
dict=DictVectorizer()
#调用fit_transform
data=dict.fit_transform([{
   'city': '北京','temperature':100},{
   'city': '上海','temperature':60},{
   'city': '深圳','temperature':30}])
print(data)

在这里插入图片描述

from sklearn.feature_extraction import DictVectorizer
#实例化
dict=DictVectorizer(sparse=False)
#调用fit_transform
data
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值