二手车笔记

一、赛题数据

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

数据说明

总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B

字段表

描述
销售ID交易ID,唯一编码
名字汽车交易名称,已脱敏
regDate(注册日期)汽车注册日期,例如20160101,2016年01月01日
车型编码,已脱敏
品牌汽车品牌,已脱敏
bodyType车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
燃料类型燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
变速器变速箱:手动:0,自动:1
权力发动机功率:范围 [ 0, 600 ]
公里汽车已行驶公里,单位万km
notRepaired损坏汽车有尚未修复的损坏:是:0,否:1
regionCode地区编码,已脱敏
卖方销售方:个体:0,非个体:1
offerType报价类型:提供:0,请求:1
creatDate汽车上线时间,即开始售卖时间
价格二手车交易价格(预测目标)
v系列特征匿名特征,包含v0-14在内15个匿名特征

二、评测标准

评价标准为MAE(Mean Absolute Error)。

“”

MAE越小,说明越准确、

缺失值处理

chunksize = 150000
dataset_path = r'F:/WorkSpace/数据分析/Dataset'

reader = pd.read_csv(
    dataset_path + r'/train_clean.csv',
    chunksize=chunksize, header=0)

for chunk in reader:
    chunk.info()
    break

# 定义One-Hot编码函数

def oneHotEncode(df, colNames):

    for col in colNames:

        dummies = pd.get_dummies(df[col], prefix=col)

        df = pd.concat([df, dummies],axis=1)

        df.drop([col], axis=1, inplace=True)

    return df

lr1=RandomForestRegressor().fit(X_train,y_train)#随机森林回归模型

lr2=LinearRegression().fit(X_train,y_train)#直线回归模型

# 处理离散数据

for col in cate_cols:

    data[col] = data[col].fillna('-1')

data = oneHotEncode(data, cate_cols)

# 处理连续数据

for col in num_cols:

    data[col] = data[col].fillna(0)

    data[col] = (data[col]-data[col].min()) / (data[col].max()-data[col].min())

# 处理(可能)无关数据

data.drop(['name', 'regionCode'], axis=1, inplace=True)

  • 25
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值