Datawhale零基础入门数据挖掘-Task1赛题理解

最新推荐文章于 2020-04-30 16:26:12 发布

不定期更新的Melicai

最新推荐文章于 2020-04-30 16:26:12 发布

阅读量290

点赞数

文章标签：机器学习数据挖掘 python

本文链接：https://blog.csdn.net/FeiHuoCai/article/details/105011209

版权

文章目录

前言

前言

当前是参与了Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛,希望能通过理论+竞赛的形式从0 到1 梳理数据挖掘。作为实战小白，希望在已有的机器学习知识的基础上参与到具体实例中，加强实战动手能力。根据活动组织方的安排，基本学习路径是在对赛题的理解基础上，依次进行数据探索性分析、数据清洗、特征工程、建模调参、模型融合等过程。
本文首先对该赛题进行基本的了解，了解赛题背后的思想以及业务逻辑可以帮助对后文的特征选择，模型搭建过程。赛题了解的思路只要是从赛题概况、数据概况、预测指标、分析赛题四个方面入手。
在这里插入图片描述

赛题概况

本次实验的题目是预测二手车的交易价格，详情在
比赛官方链接: https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

数据概况

该数据来自某交易平台的二手车交易记录,官方提供三个文件供下载：
在这里插入图片描述
通过基本的数据读取，可以看到训练集是150000个观测值，并且加上ID，Name等有31列字段。验证集有50000个观测值，有30列字段，同训练集数据相比没有目标变量价格列。

import pandas as pd 
import numpy as np
path = 'C:/Users/Kingfish/Desktop/TianChi/'
Train_data = pd.read_csv(path+'train.csv', sep=' ')   
Test_data = pd.read_csv(path+'testA.csv', sep=' ') 
print('Train data shape:',Train_data.shape) #Train data shape: (150000, 31)
print('TestA data shape:',Test_data.shape) #TestA data shape: (50000, 30)

同时进一步了解各个字段的含义
在这里插入图片描述

预测指标

评估指标即是我们对于一个模型效果的数值型量化。该数据是为了预测二手汽车的交易价格，这是一个典型的回归问题。回归问题的评价标准有多种，包括平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）等。
在这里插入图片描述

在这里插入图片描述

分析赛题

此题是回归问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
后续需要通过EDA来挖掘数据的联系，加强对数据的认识和剖析。
根据自有基础，结合数据，主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。