字典特征提取
特征工程就是从「原始数据」中提取「特征」,以供「算法」和「模型」使用。
简单来说就是将任意数据(比如文本和图像)转换为可用于机器学习的数字特征。
一、特征提取API
sklearn.feature_extraction 是用来提取特征的 API 。
sklearn.feature_extraction.DictVectorizer(sparse=True)
- DictVectorizer.fit_transform( data ):接收字典类型的原始数据,返回提取的数字特征(sparse矩阵)
- DictVectorizer.inverse_transform( data ):将提取的数字特征,转回原始数据。
- DictVectorizer.get_feature_names_out():返回特征名字
一、提取数字特征
我们准备一个字典类型的数据,然后「提取」数字特征。
from sklearn import feature_extraction
# 原始数据(字典)
old_data = [
{'name': "张三"