Python scikit-learn,数据的特征抽取,特征值化,DictVectorizer,CountVectorizer,TfidfVectorizer

本文介绍了使用scikit-learn进行数据的特征抽取,特别是针对文本数据,通过DictVectorizer实现字典类型数据的一热编码,CountVectorizer进行文本数据的数值化,以及TfidfVectorizer利用TF-IDF算法对文本进行重要性评估和转换。TF-IDF是一种衡量词在文档中重要性的方法,用于区分文档间的差异。
摘要由CSDN通过智能技术生成

scikit-learn工具可以做:数据的特征抽取、特征预处理、降维。

数据的特征抽取:将文本等数据进行特征值化(转换成计算机可以理解的数字类型)

 

demo.py(字典数据抽取,字典类型的数据转换成数字类型,DictVectorizer,one-hot编码):

from sklearn.feature_extraction import DictVectorizer  # 需要pip3安装scikit-learn。依赖Numpy,pandas等模块


# 字典数据抽取(将字典类型的数据转换成数字类型)

# 实例化DictVectorizer
dict = DictVectorizer(sparse=False)  # sparse=False表示返回矩阵形式(默认True)。(sparse表示稀疏,矩阵形式浪费内存)

# 调用fit_transform (fit_transform()等同于fit()填充数据 + tansform()转换数据)(tansform转换器转换数据时所依赖的均值、标准差等取决于fit()填充的数据)
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

print(dict.get_feature_names())  # ['city=上海', 'city=北京', 'city=深圳', 'temp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值