一、特征抽取
sklearn.feature_extraction
字典特征提取
文本特征提取
二、特征预处理
将特征数据转换成更加适合算法模型的特征数据的过程
- 归一化:变化原始数据实质映射到(默认[0,1])之间
- 标准化:将数据变换到均值为0 ,标准差为1的范围内,最值为异常值的情况归一化失效时可使用。
三、特征降维
某些条件下降低随机变量(特征)个数,得到一组不相关变量的过程
-
特征选择:从原有特征找出主要特征
1)filter过滤式- 方差选择法:低方差特征过滤
- 相关系数法:特征与特征之间的相关程度,反映变量之间相关关系密切程度(皮尔逊系数pearson)
2)embeded嵌入式
决策树、正则化、深度学习
2. 主成分分析PCA:高维数据转换为低维数据的过程,可能会舍弃原有数据而创作新的变量。数据位数压缩,降低数据复杂度。