1、特征工程是什么
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。
2、特征工程的意义
直接影响预测结果
3、数据的特征抽取
将文本、字符串等数据转换为数字的形式(特征值化)
(1)字典数据特征值化
类:sklearn.feature_extraction.DictVectorizer
DictVectorizer.fit_transform(X)
X:字典或包含字典的迭代器
返回值:返回sparse矩阵In [1]:from sklearn.feature_extraction import DictVectorizer dict = DictVectorizer() #实例化 data = dict.fit_transform([{ 'city':'北京','temperature':100},{ 'city':'上海','temperature':36},{ 'city':'深圳','temperature':90}]) print(data) Out [1