一、特征工程
(一)特征抽取:
特征抽取针对非连续型数据
特征抽取对文本等进行特征值化
(1)对字典类型的特征抽取:
将字典类型的数字转换为one-hot编码
(2)对文本数据进行特征值化:
count:统计次出现的次数
tdidf :考虑到了词的重要性(一般用这个)
(二)特征预处理:
归一化
标准化
(1)归一化:
目的:注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响
(2)标准化:
解决了归一化中如果存在异常点的解决。(一般使用这个)
(三)数据降维:
(1)特征选择:
特征少,只选择部分特征
(2)PCA:
是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。