Python scikit-learn，数据的特征抽取，特征值化，DictVectorizer，CountVectorizer，TfidfVectorizer

最新推荐文章于 2024-08-08 21:57:01 发布

houyanhua1

最新推荐文章于 2024-08-08 21:57:01 发布

阅读量1.3k

点赞数

分类专栏： Python+ 机器学习文章标签： Python 特征抽取

本文链接：https://blog.csdn.net/houyanhua1/article/details/87895394

版权

本文介绍了使用scikit-learn进行数据的特征抽取，特别是针对文本数据，通过DictVectorizer实现字典类型数据的一热编码，CountVectorizer进行文本数据的数值化，以及TfidfVectorizer利用TF-IDF算法对文本进行重要性评估和转换。TF-IDF是一种衡量词在文档中重要性的方法，用于区分文档间的差异。

摘要由CSDN通过智能技术生成

scikit-learn工具可以做：数据的特征抽取、特征预处理、降维。

数据的特征抽取：将文本等数据进行特征值化(转换成计算机可以理解的数字类型)

demo.py（字典数据抽取，字典类型的数据转换成数字类型，DictVectorizer，one-hot编码）：

from sklearn.feature_extraction import DictVectorizer  # 需要pip3安装scikit-learn。依赖Numpy,pandas等模块


# 字典数据抽取（将字典类型的数据转换成数字类型）

# 实例化DictVectorizer
dict = DictVectorizer(sparse=False)  # sparse=False表示返回矩阵形式(默认True)。(sparse表示稀疏，矩阵形式浪费内存)

# 调用fit_transform （fit_transform()等同于fit()填充数据 + tansform()转换数据）(tansform转换器转换数据时所依赖的均值、标准差等取决于fit()填充的数据)
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

print(dict.get_feature_names())  # ['city=上海', 'city=北京', 'city=深圳', 'temp