前言
当前是参与了Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛,希望能通过理论+竞赛的形式从0 到1 梳理数据挖掘。作为实战小白,希望在已有的机器学习知识的基础上参与到具体实例中,加强实战动手能力。根据活动组织方的安排,基本学习路径是在对赛题的理解基础上,依次进行数据探索性分析、数据清洗、特征工程、建模调参、模型融合等过程。
本文首先对该赛题进行基本的了解,了解赛题背后的思想以及业务逻辑可以帮助对后文的特征选择,模型搭建过程。赛题了解的思路只要是从赛题概况、数据概况、预测指标、分析赛题四个方面入手。
赛题概况
本次实验的题目是预测二手车的交易价格,详情在
比赛官方链接: https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX
数据概况
该数据来自某交易平台的二手车交易记录,官方提供三个文件供下载:
通过基本的数据读取,可以看到训练集是150000个观测值,并且加上ID,Name等有31列字段。验证集有50000个观测值,有30列字段,同训练集数据相比没有目标变量价格列。
import pandas as pd
import numpy as np
path = 'C:/Users/Kingfish/Desktop/TianChi/'
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')
print('Train data shape:',Train_data.shape) #Train data shape: (150000, 31)
print('TestA data shape:',Test_data.shape) #TestA data shape: (50000, 30)
同时进一步了解各个字段的含义
预测指标
评估指标即是我们对于一个模型效果的数值型量化。该数据是为了预测二手汽车的交易价格,这是一个典型的回归问题。回归问题的评价标准有多种,包括平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)等。
分析赛题
此题是回归问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
后续需要通过EDA来挖掘数据的联系,加强对数据的认识和剖析。
根据自有基础,结合数据,主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。