task1 赛题理解

task1 赛题理解

  • 赛题背景
  • 数据分析

赛题背景

本赛题数据来自某交易平台的二手车交易记录总数据量超过40w,包含31列变量信息,其中15列为匿名变量。此次比赛将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,对name(汽车编码)、model(车型编码)、brand(品牌)和regionCode(看车地区编码)等信息已经进行进行脱敏处理。
此次比赛对于二手车价格的预测,对于二手车市场有很大作用。
##数据概况
SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’ 【匿名特征,包含v0-14在内15个匿名特征】  
训练集中包含39条属性,50000个数据,其中23条匿名数据
测试集A中包含40条属性,250000个数据,其中23条匿名数据

import pandas as pd
import numpy as np
path='F:/'
train_data=pd.read_csv(path+'数据资料2.csv',sep=' ')
test_data=pd.read_csv(path+'数据资料3.csv',sep=' ')
print(train_data.shape)
print(test_data.shape)
t=train_data.tail()
s=test_data.tail()
print(train_data.head().append(t))
print(test_data.head().append(s))
##结果
D:\python.exe "E:/Program Files/main.py"
(50000, 39)
(250000, 40)
       SaleID    name   regDate  model  ...       v_20      v_21      v_22      v_23
0      720326     505  20060505   19.0  ...   2.324961  3.343910  4.048742 -1.431822
1      714316    1836  20010301    5.0  ...   1.202395  3.570743 -1.180587 -1.348598
2      704693  212291  20170610    6.0  ...  -4.444620 -0.706978 -1.720218  3.569112
3      624972    1345  19820005  215.0  ...   2.700732  5.323602  6.085956 -0.900585
4      669753    1428  20060205   30.0  ...   2.254931  4.183037 -2.574004  0.014203
49995  375033    3803  20010407    6.0  ...  -2.348749 -2.636560 -0.965214 -1.097192
49996  406556   28500  20071001  130.0  ...  -1.590285 -3.495608  3.301887  3.947193
49997  511668   98383  19980102   23.0  ...   0.734084  0.779931  1.822416  5.012697
49998  533139    1489  20031001   70.0  ...  18.008141 -2.513048 -3.310876 -1.589404
49999  592803     994  20070407   76.0  ...  17.664283 -5.802325  3.063008 -1.308131

[10 rows x 39 columns]
        SaleID    name   regDate  model  ...      v_20      v_21      v_22      v_23
0       134890     734  20160002   13.0  ... -0.947052  9.077297  0.581214  3.945923
1       306648  196973  20080307   72.0  ... -0.658246 -3.949621  4.593618 -1.145653
2       340675   25347  20020312   18.0  ...  0.971495  2.625318 -0.851922 -1.246135
3        57332    5382  20000611   38.0  ...  1.227646  3.040629 -0.801854 -1.251894
4       265235  173174  20030109   87.0  ... -1.131568 -3.303424 -1.998466 -1.279368
249995   10556    9332  20170003   13.0  ... -4.429385  7.883413  0.698405 -1.082013
249996  146710  102110  20030511   29.0  ... -2.484556 -2.532968 -0.940266 -1.106426
249997  116066   82802  20130312  124.0  ... -0.592565 -3.872725  2.135984  3.807554
249998   90082   65971  20121212  111.0  ... -1.891556 -3.104789 -3.777374  3.186218
249999   76453   56954  20051111   13.0  ... -2.168249 -0.980042 -0.955164 -1.169593

[10 rows x 40 columns]

Process finished with exit code 0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值