机器学习------特征工程CountVectorizer，DictVectorizer，TfidfVectorizer

最新推荐文章于 2022-06-17 14:42:58 发布

Micaelyu

最新推荐文章于 2022-06-17 14:42:58 发布

阅读量463

点赞数 1

文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/Micaelyu/article/details/105458817

版权

特征工程是提升预测模型准确性的关键步骤，涉及原始数据转换为更具代表性的特征。本文介绍了如何利用CountVectorizer、DictVectorizer和TfidfVectorizer对文本数据进行特征值化。通过jieba分词与TfidfVectorizer，可以计算词频并确定词的重要性，解决因词稀疏性带来的存储和运算问题，采用scipy.sparse矩阵结构来优化处理。

摘要由CSDN通过智能技术生成

特征工程是什么？

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

特征抽取对文本等数据进行特征值化特征值化是为了计算机更好的去理解数据**

from sklearn.feature_extraction.text import CountVectorizer
#实例化
vector=CountVectorizer()
#调用fit_transform输入并转换数据
res=vector.fit_transform(['Life is short ,i like python','Life is too long,i dislike python'])
#打印结果
print(vector.get_feature_names())
print(res.toarray())

在这里插入图片描述

from sklearn.feature_extraction import DictVectorizer
#实例化
dict=DictVectorizer()
#调用fit_transform
data=dict.fit_transform([{
   'city': '北京','temperature':100},{
   'city': '上海','temperature':60},{
   'city': '深圳','temperature':30}])
print(data)

在这里插入图片描述

from sklearn.feature_extraction import DictVectorizer
#实例化
dict=DictVectorizer(sparse=False)
#调用fit_transform
data

最低0.47元/天解锁文章

Micaelyu

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫