Datawhale零基础入门数据挖掘-Task1赛题理解

前言

当前是参与了Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛,希望能通过理论+竞赛的形式从0 到1 梳理数据挖掘。作为实战小白,希望在已有的机器学习知识的基础上参与到具体实例中,加强实战动手能力。根据活动组织方的安排,基本学习路径是在对赛题的理解基础上,依次进行数据探索性分析、数据清洗、特征工程、建模调参、模型融合等过程。
本文首先对该赛题进行基本的了解,了解赛题背后的思想以及业务逻辑可以帮助对后文的特征选择,模型搭建过程。赛题了解的思路只要是从赛题概况、数据概况、预测指标、分析赛题四个方面入手。
在这里插入图片描述

赛题概况

本次实验的题目是预测二手车的交易价格,详情在
比赛官方链接: https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

数据概况

该数据来自某交易平台的二手车交易记录,官方提供三个文件供下载:
在这里插入图片描述
通过基本的数据读取,可以看到训练集是150000个观测值,并且加上ID,Name等有31列字段。验证集有50000个观测值,有30列字段,同训练集数据相比没有目标变量价格列。

import pandas as pd 
import numpy as np
path = 'C:/Users/Kingfish/Desktop/TianChi/'
Train_data = pd.read_csv(path+'train.csv', sep=' ')   
Test_data = pd.read_csv(path+'testA.csv', sep=' ') 
print('Train data shape:',Train_data.shape) #Train data shape: (150000, 31)
print('TestA data shape:',Test_data.shape) #TestA data shape: (50000, 30)

同时进一步了解各个字段的含义
在这里插入图片描述

预测指标

评估指标即是我们对于一个模型效果的数值型量化。该数据是为了预测二手汽车的交易价格,这是一个典型的回归问题。回归问题的评价标准有多种,包括平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)等。
在这里插入图片描述

在这里插入图片描述在这里插入图片描述

分析赛题

此题是回归问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
后续需要通过EDA来挖掘数据的联系,加强对数据的认识和剖析。
根据自有基础,结合数据,主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值