一、特征工程是什么
特征工程师将原始数据转换为更好的代表预测模型潜在问题的特征的过程,从而提高对未知数据的预测准确性
二、数据的特征抽取
1、字典特征抽取
from sklearn.feature_extraction import DictVectorizer
dict = DictVectorizer(sparse=False)
data = dict.fit_transform([{'city':'北京','temperature':82},{'city':'上海','temperature':90},{'city':'深圳','temperature':99}])
print(data)
[[ 0. 1. 0. 82.]
[ 1. 0. 0. 90.]
[ 0. 0. 1. 99.]]
print(dict.get_feature_names())
OUT:['city=上海', 'city=北京', 'city=深圳', 'temperature']
2、文本特征抽取:文本分类、情感分析
(1)英文文章特征抽取
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(['Life is good','Life is too lon