二手车笔记

最新推荐文章于 2025-02-21 14:39:32 发布

zzz__zzz~

最新推荐文章于 2025-02-21 14:39:32 发布

阅读量1k

点赞数 45

文章标签：笔记

本文链接：https://blog.csdn.net/2301_80140029/article/details/140734701

版权

一、赛题数据

赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

数据说明

总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B

字段表

田	描述
销售ID	交易ID，唯一编码
名字	汽车交易名称，已脱敏
regDate（注册日期）	汽车注册日期，例如20160101，2016年01月01日
型	车型编码，已脱敏
品牌	汽车品牌，已脱敏
bodyType	车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
燃料类型	燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
变速器	变速箱：手动：0，自动：1
权力	发动机功率：范围 [ 0, 600 ]
公里	汽车已行驶公里，单位万km
notRepaired损坏	汽车有尚未修复的损坏：是：0，否：1
regionCode	地区编码，已脱敏
卖方	销售方：个体：0，非个体：1
offerType	报价类型：提供：0，请求：1
creatDate	汽车上线时间，即开始售卖时间
价格	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-14在内15个匿名特征

二、评测标准

评价标准为MAE（Mean Absolute Error）。

MAE越小，说明越准确、

缺失值处理

chunksize = 150000
dataset_path = r'F:/WorkSpace/数据分析/Dataset'

reader = pd.read_csv(
    dataset_path + r'/train_clean.csv',
    chunksize=chunksize, header=0)

for chunk in reader:
    chunk.info()
    break

# 定义One-Hot编码函数

def oneHotEncode(df, colNames):

for col in colNames:

dummies = pd.get_dummies(df[col], prefix=col)

df = pd.concat([df, dummies],axis=1)

df.drop([col], axis=1, inplace=True)

return df

lr1=RandomForestRegressor().fit(X_train,y_train)#随机森林回归模型

lr2=LinearRegression().fit(X_train,y_train)#直线回归模型

# 处理离散数据

for col in cate_cols:

data[col] = data[col].fillna('-1')