[天池比赛][0基础]二手车价格预测task3

Task3

特征工程:将数据转换为能更好地表示潜在问题的特征,从而提高性能

常见的特征工程包括:

数据理解:探索数据,了解数据,EDA

  • 定性数据:描述性质
    • 定类:按名称分类—血型、城市
    • 定序:有序分类—成绩(A,B,C)
  • 定量数据:描述数量
    • 定距:可以加减—温度,日期
    • 定比:可以乘除—价格,质量

数据清洗:

  • 特征变换:处理模型无法处理或不适合处理
    • 定性变量编码:
      • Label Encoder
      • Onehot Encoder
      • Distribution Encoder
    • 特征归一化/标准化:
      • 标准化(转换为标准正态分布);
      • 归一化(抓换到 [0,1] 区间);
      • 针对幂律分布,可以采用公式: l o g ( 1 + x 1 + m e d i a n ) log(\frac{1+x}{1+median}) log(1+median1+x)
  • 缺失值处理:
    • 不处理(针对类似 XGBoost 等树模型)少量样本缺失;
    • 删除(缺失数据太多)大量样本缺失;
    • 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全最近领补全/高维映射等;
  • 异常处理(减少脏数据):
    - 通过箱线图(或 3-Sigma或截断)分析删除异常值;
    注意箱线图与小提琴图的分析
    箱线图可以看出数据的集中分布以及异常点,小提琴图加上了分布目睹
    - 利用模型进行离群点检测:聚类、k近邻、one class SVM、Isolation Forest;
    - 简单统计:如describe()的统计和散点图等;
  • 其他
    • 删除无效列
    • 更改dtypes
    • 删除列中的字符
    • 将时间戳从字符窜转换为日期时间格式

特征构造(仁者见仁智者见智)增强数据表达,添加先验知识

  • 构造统计量特征,报告计数、求和、比例、标准差等;
  • 时间特征,包括相对时间和绝对时间,节假日,双休日等;
  • 地理信息,包括分箱,分布编码等方法;
  • 非线性变换,包括 log/ 平方/ 根号等;
  • 数据分桶:
    • 等频分桶;
    • 等距分桶;
    • Best-KS 分桶(类似利用基尼指数进行二分类);
    • 卡方分桶;
    • 分箱,缺失值一个箱;
  • 特征组合,特征交叉;

特征筛选:平衡预测能力和计算复杂度;降低噪声,增强模型预测性能

  • 过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法;
  • 包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
  • 嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归,LR+L1和决策树;

类别不平衡:(缺点:少类别提供信息太少,没学会如何判别少数类)

  • 扩充数据集

  • 尝试其他评价指标

  • 调整 θ \theta θ

  • 重采样:过采样,欠采样

  • 合成样本:SMOTE

  • 选择其他模型:决策树

  • 加权少类别的样本错分代价

  • 创新

    • 将大类分成多个小类
    • 将小类视为异常点,并用异常检测模型建模
  • 降维

    • PCA/ LDA/ ICA;
    • 特征选择也是一种降维。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值