二手车价格预测task3 check
Task3
特征工程:将数据转换为能更好地表示潜在问题的特征,从而提高性能
常见的特征工程包括:
数据理解:探索数据,了解数据,EDA
- 定性数据:描述性质
- 定类:按名称分类—血型、城市
- 定序:有序分类—成绩(A,B,C)
- 定量数据:描述数量
- 定距:可以加减—温度,日期
- 定比:可以乘除—价格,质量
数据清洗:
- 特征变换:处理模型无法处理或不适合处理
- 定性变量编码:
- Label Encoder
- Onehot Encoder
- Distribution Encoder
- 特征归一化/标准化:
- 标准化(转换为标准正态分布);
- 归一化(抓换到 [0,1] 区间);
- 针对幂律分布,可以采用公式: l o g ( 1 + x 1 + m e d i a n ) log(\frac{1+x}{1+median}) log(1+median1+x)
- 定性变量编码:
- 缺失值处理:
- 不处理(针对类似 XGBoost 等树模型)少量样本缺失;
- 删除(缺失数据太多)大量样本缺失;
- 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全最近领补全/高维映射等;
- 异常处理(减少脏数据):
- 通过箱线图(或 3-Sigma或截断)分析删除异常值;
注意箱线图与小提琴图的分析
箱线图可以看出数据的集中分布以及异常点,小提琴图加上了分布目睹
- 利用模型进行离群点检测:聚类、k近邻、one class SVM、Isolation Forest;
- 简单统计:如describe()的统计和散点图等; - 其他
- 删除无效列
- 更改dtypes
- 删除列中的字符
- 将时间戳从字符窜转换为日期时间格式
特征构造(仁者见仁智者见智)增强数据表达,添加先验知识
- 构造统计量特征,报告计数、求和、比例、标准差等;
- 时间特征,包括相对时间和绝对时间,节假日,双休日等;
- 地理信息,包括分箱,分布编码等方法;
- 非线性变换,包括 log/ 平方/ 根号等;
- 数据分桶:
- 等频分桶;
- 等距分桶;
- Best-KS 分桶(类似利用基尼指数进行二分类);
- 卡方分桶;
- 分箱,缺失值一个箱;
- 特征组合,特征交叉;
特征筛选:平衡预测能力和计算复杂度;降低噪声,增强模型预测性能
- 过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法;
- 包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
- 嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归,LR+L1和决策树;
类别不平衡:(缺点:少类别提供信息太少,没学会如何判别少数类)
-
扩充数据集
-
尝试其他评价指标
-
调整 θ \theta θ值
-
重采样:过采样,欠采样
-
合成样本:SMOTE
-
选择其他模型:决策树
-
加权少类别的样本错分代价
-
创新
- 将大类分成多个小类
- 将小类视为异常点,并用异常检测模型建模
-
降维
- PCA/ LDA/ ICA;
- 特征选择也是一种降维。