二手车交易价格赛题及数据初步分析

最新推荐文章于 2021-04-13 13:54:06 发布

Simone_future

最新推荐文章于 2021-04-13 13:54:06 发布

阅读量344

点赞数

本文链接：https://blog.csdn.net/Simone_future/article/details/105013496

版权

二手车交易价格预测数据初步分析

赛题分析
数据分析

赛题分析

训练集共有15万条数据，测试集A有5万条。包含31个变量，Index([‘SaleID’, ‘name’, ‘regDate’, ‘model’, ‘brand’, ‘bodyType’, ‘fuelType’,‘gearbox’, ‘power’, ‘kilometer’, ‘regionCode’, ‘seller’, ‘offerType’,‘creatDate’, ‘price’, ‘v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’,‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’, ‘v_14’],dtype=‘object’)
各变量注释如下：
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’（根据汽车的评论、标签等大量信息得到的embedding向量）【人工构造匿名特征】

一般经验来看，二手车的价格受影响最大的应该是车的品牌，行驶公里数，汽车注册时间，和汽车损坏程度。因此，特征选择上可以结合此类经验。此赛题是典型的回归问题，可以采用boosting，stacking等集成方法，非线性回归，深度融合等方法，关键在于数据特征分析（是否高度相关，有无缺失值），特征选择，异常值处理，缺失值处理，以及思考如何构建准确的模型并优化参数，对于外推性上性能如何评价。

数据分析

用python分析150000条数据，运用了数据导入，数据简要分析，数据统计信息浏览
数据导入：运用pandas

Train_data = pd.read_csv('datalab/used_car_train_20200313.csv', sep=' ')；

数据简要分析：通过 .info() 简要可以看到对应一些数据列名，以及NAN缺失信息

Train_data.info()

得到dtypes: float64(20), int64(10), object(1)

TestA_data.info()

得到dtypes: float64(20), int64(9), object(1)
数据统计信息浏览：通过 .describe() 可以查看数值特征列的一些统计信息

Train_data.describe()
TestA_data.describe()

在这里插入图片描述
得到数据的count个数，mean，min，max
疑问：25%，50%，75%不知道什么意思，类似于中位数的意思？且中间省略号的数据如何让看到？

Simone_future

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
二手车交易价格赛题及数据初步分析

二手车交易价格预测数据初步分析赛题分析数据分析赛题分析训练集共有15万条数据，测试集A有5万条。包含31个变量，Index([‘SaleID’, ‘name’, ‘regDate’, ‘model’, ‘brand’, ‘bodyType’, ‘fuelType’,‘gearbox’, ‘power’, ‘kilometer’, ‘regionCode’, ‘seller’, ‘offerTy...
复制链接

扫一扫