Datawhale&阿里云天池 二手车交易价格预测 Task3:特征工程

这篇博文后续会再进行补充

在构造特征之前,需要对数据进行异常值处理缺失值处理

记录针对二手车数据集中一些特征的处理。
1. 时间特征
数据集中包含了汽车注册日期regDate 和汽车上线日期creatDate,形式为例如20160101。
处理的方式为:计算上线日期与注册日期的差值,生成新的特征–汽车使用时间。由先验知识可知,二手汽车的价格与使用时间成反比。

2. 地理特征
数据集中包含了地区编码regionCode这一特征,由先验知识可从regionCode中提取出相应的城市信息,作为新的特征。

在人工选择过各特征后,需要进一步对特征进行选择,筛选出对预测起作用较大的特征。主要分为三种方式:
1. 过滤式
先用相关系数法、互信息法、卡方检验法等进行特征选择,然后再投入到学习器中。

2. 包裹式
LVM

3. 嵌入式
结合过滤式和包裹式,学习器在训练时自动进行特征选择,典型方法为lasso回归–L1正则化趋向将特征系数变为0。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值