二手车价格预测特征工程部分

1、包装了outliers_proc( )函数,用于清洗异常值。
2、构造新特征汽车的使用时间,data[‘creatDate’] - data[‘regDate’],查看这个特征的空数据,有15k个样本的时间是有问题的,我们可以选择删除,也可以选择放着。但是这里不建议删除,因为缺失量过大,占比7.5%,可以先放着,因为如果我们xgboost之类的决策树,其本身就能处理缺失值,所以可以不用管;
3、从邮编中提取后3位数代表城市信息,因为是德国的数据,所以参考德国的邮编
4、计算各个品牌的销售量
5、做一个数据分桶
原因:离散后稀疏向量内积乘法运算速度更快,计算结果也方便存储,容易扩展。
离散后的特征对异常值更具鲁棒性,如age > 30为1,否则为0,对于年龄为200上网也不会对模型造成很大的影响
6、LR属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这相当于引进了非线性,更具泛化能力
离散后特征可以进行特征交叉,提升表达能力,由M+N个变量变成M*N个变量,进一步引入了非线性,能
特征离散后模型更稳定,如用户年龄区间,不会因为用户年龄长了一岁就变化
当然还有很多原因,LightGBM在改进XGBoost时就增加了数据分桶,增加了模型的泛化性。
7、对特征进行取log,再做归一化,
8、对类别特征进行one-hot编码,采pandas的get_dummies函数
9、进行特征筛选,检验各个特征与价格的相关性分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值