task1 赛题理解
- 赛题背景
- 数据分析
赛题背景
本赛题数据来自某交易平台的二手车交易记录总数据量超过40w,包含31列变量信息,其中15列为匿名变量。此次比赛将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,对name(汽车编码)、model(车型编码)、brand(品牌)和regionCode(看车地区编码)等信息已经进行进行脱敏处理。
此次比赛对于二手车价格的预测,对于二手车市场有很大作用。
##数据概况
SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】
训练集中包含39条属性,50000个数据,其中23条匿名数据
测试集A中包含40条属性,250000个数据,其中23条匿名数据
import pandas as pd
import numpy as np
path='F:/'
train_data=pd.read_csv(path+'数据资料2.csv',sep=' ')
test_data=pd.read_csv(path+'数据资料3.csv',sep=' ')
print(train_data.shape)
print(test_data.shape)
t=train_data.tail()
s=test_data.tail()
print(train_data.head().append(t))
print(test_data.head().append(s))
##结果
D:\python.exe "E:/Program Files/main.py"
(50000, 39)
(250000, 40)
SaleID name regDate model ... v_20 v_21 v_22 v_23
0 720326 505 20060505 19.0 ... 2.324961 3.343910 4.048742 -1.431822
1 714316 1836 20010301 5.0 ... 1.202395 3.570743 -1.180587 -1.348598
2 704693 212291 20170610 6.0 ... -4.444620 -0.706978 -1.720218 3.569112
3 624972 1345 19820005 215.0 ... 2.700732 5.323602 6.085956 -0.900585
4 669753 1428 20060205 30.0 ... 2.254931 4.183037 -2.574004 0.014203
49995 375033 3803 20010407 6.0 ... -2.348749 -2.636560 -0.965214 -1.097192
49996 406556 28500 20071001 130.0 ... -1.590285 -3.495608 3.301887 3.947193
49997 511668 98383 19980102 23.0 ... 0.734084 0.779931 1.822416 5.012697
49998 533139 1489 20031001 70.0 ... 18.008141 -2.513048 -3.310876 -1.589404
49999 592803 994 20070407 76.0 ... 17.664283 -5.802325 3.063008 -1.308131
[10 rows x 39 columns]
SaleID name regDate model ... v_20 v_21 v_22 v_23
0 134890 734 20160002 13.0 ... -0.947052 9.077297 0.581214 3.945923
1 306648 196973 20080307 72.0 ... -0.658246 -3.949621 4.593618 -1.145653
2 340675 25347 20020312 18.0 ... 0.971495 2.625318 -0.851922 -1.246135
3 57332 5382 20000611 38.0 ... 1.227646 3.040629 -0.801854 -1.251894
4 265235 173174 20030109 87.0 ... -1.131568 -3.303424 -1.998466 -1.279368
249995 10556 9332 20170003 13.0 ... -4.429385 7.883413 0.698405 -1.082013
249996 146710 102110 20030511 29.0 ... -2.484556 -2.532968 -0.940266 -1.106426
249997 116066 82802 20130312 124.0 ... -0.592565 -3.872725 2.135984 3.807554
249998 90082 65971 20121212 111.0 ... -1.891556 -3.104789 -3.777374 3.186218
249999 76453 56954 20051111 13.0 ... -2.168249 -0.980042 -0.955164 -1.169593
[10 rows x 40 columns]
Process finished with exit code 0