二手车交易价格预测——特征工程(2) 生成适用于树,xgboostde的数据

二手车交易价格预测——特征工程(1)生成适用于树,xgboostde的数据

针对生成LR的模型的链接:https://editor.csdn.net/md/?articleId=105156750


通过对赛题的分析,我们可以看出此类问题是对价格进行回归预测,那我们对于数据需要事先做预处理分析,前期我们已经进行了EDA探索性数据分析,下面是对进行特征工程。
特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
在这里插入图片描述

在这里插入图片描述

图片来源:特征工程全过程

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from operator import itemgetter

%matplotlib inline
Train_data= pd.read_csv(r'D:\ershouche\used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(r'D:\ershouche\used_car_testA_20200313.csv', sep=' ')

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
Train_data['notRepairedDamage'].value_counts()
0.0    111361
1.0     14315
Name: notRepairedDamage, dtype: int64

生成 可以用于tree的数据

#对偏斜类做删除处理
del Train_data["seller"]
del Train_data["offerType"]
del Test_data["seller"]
del Test_data["offerType"]

1.通过箱线图删除异常值

def out_proc(data,col_name,scale=3):  #(data:接收pandas 数据格式,col_name: pandas 列名, scale 尺度)
    def box(data_ser,box_scale):   #(接收箱线图的数据格式,箱线图尺度)
        iqr=box_scale*(data_ser.quantile(0.75)-data_ser.quantile(0.25))
        val_low=(data_ser.quantile(0.25)-iqr)
        val_up=(data_ser.quantile(0.75)+iqr)
        rule_low=(data_ser<val_low)
        rule_up=(data_ser>val_up)
        
        return (rule_low,rule_up),(val_low,val_up)
    
    data_n=data.copy()
    data_series=data_n[col_name]
    rule,value = box(data_series,box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0]|rule[1]]
    print('delete number is: {}'.format(len(index
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值