1、将任意数据(如文本或图像)转换为可用于机器学习的数字特征
2、遇到不同的数字特征,可以使用不同的提取方式:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习介绍)
3、特征提取API
sklearn.feature_extraction
4、字典特征提取
类别
作用:对字典数据进行特征值化
sklearn.feature_extraction import DictVectorizer(sparse=True,....) sparse -- 稀疏
ex_1:
from sklearn.feature_extraction import DictVectorizer
def dict_demo():
data = [{'city': '北京', 'temperature': 100},{'city': '上海', 'temperature': 60},{'city': '深圳', 'temperature': 30}]
#1、实例化一个转换器类
transfer = DictVectorizer(sparse=False)
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
print("特征名字:\n", transfer.get_feature_names())
return None