特征工程
定义:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。
内容:主要有三部分:
1、特征抽取
2、特征预处理
3、数据的降维
特征预处理
特征预处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。
1、包含内容
- 数值型数据:标准缩放,包括归一化、标准化、缺失值
- 类别型数据:one—hot编码
- 时间类型:时间的切分
2、sklearn特征处理API:
sklearn.preprocessing
一、归一化
1、特点
通过对原始数据进行变换把数据映射到[0, 1](默认)之间
2、公式
x ′ = x − m i n m a x − m i n x'=\frac{x-min}{max-min} x′=max−minx−min x ′ ′ = x ′ ( m x − m i ) + m i x''=x'(mx-mi)+mi x′′=x