二手车交易价格赛题及数据初步分析

二手车交易价格预测数据初步分析

赛题分析

训练集共有15万条数据,测试集A有5万条。包含31个变量,Index([‘SaleID’, ‘name’, ‘regDate’, ‘model’, ‘brand’, ‘bodyType’, ‘fuelType’,‘gearbox’, ‘power’, ‘kilometer’, ‘regionCode’, ‘seller’, ‘offerType’,‘creatDate’, ‘price’, ‘v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’,‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’, ‘v_14’],dtype=‘object’)
各变量注释如下:
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’(根据汽车的评论、标签等大量信息得到的embedding向量)【人工构造 匿名特征】

一般经验来看,二手车的价格受影响最大的应该是车的品牌,行驶公里数,汽车注册时间,和汽车损坏程度。因此,特征选择上可以结合此类经验。此赛题是典型的回归问题,可以采用boosting,stacking等集成方法,非线性回归,深度融合等方法,关键在于数据特征分析(是否高度相关,有无缺失值),特征选择,异常值处理,缺失值处理,以及思考如何构建准确的模型并优化参数,对于外推性上性能如何评价。

数据分析

用python分析150000条数据,运用了数据导入,数据简要分析,数据统计信息浏览
数据导入:运用pandas

Train_data = pd.read_csv('datalab/used_car_train_20200313.csv', sep=' ')

数据简要分析:通过 .info() 简要可以看到对应一些数据列名,以及NAN缺失信息

Train_data.info()

得到dtypes: float64(20), int64(10), object(1)

TestA_data.info()

得到dtypes: float64(20), int64(9), object(1)
数据统计信息浏览:通过 .describe() 可以查看数值特征列的一些统计信息

Train_data.describe()
TestA_data.describe()

在这里插入图片描述
得到数据的count个数,mean,min,max
疑问:25%,50%,75%不知道什么意思,类似于中位数的意思?且中间省略号的数据如何让看到?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值