时序预测任务简介
2.特征工程常见操作(数据清洗,特征构造,特征筛选)
数据清洗:提高数据质量,降低算法用错误数据建模的风险
- 特征变换:模型无法处理或者不适合处理
a) 定性变量编码:Label Encoder;onehot encoder;distribution Encoder
b)标准化和归一化(对于lr模型来说,但是xgb就不需要):z分数标准化(标准正态分布),min-max归一化 - 缺失值处理:减少不确定性和不可靠输出
a)不处理:少量样本缺失
b)删除:大量样本缺失
c)补全:(同类)均值/中位数/众数补全,高维映射,模型预测,最邻近/向后/向前补全,矩阵补全(R-SVD) - 异常值处理:减少脏数据
a)简单统计:如describe()的统计描述,散点图等
b)正态分布(3伽马法则)/箱型图阶段
c)利用模型进行离群点检测:聚类,k近邻,one class SVM,isolation forest - 其他:删除无效列/更改dtypes/删除列中的字符串/将时间