零基础入门数据挖掘-Task1 赛题理解

最新推荐文章于 2021-07-14 11:18:52 发布

ai_trainer

最新推荐文章于 2021-07-14 11:18:52 发布

阅读量577

点赞数

文章标签：数据挖掘 python 机器学习

本文链接：https://blog.csdn.net/DataWhale_0330/article/details/105011254

版权

阿里天池 - 零基础入门数据挖掘专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Datawhale 零基础入门数据挖掘-Task1 赛题理解

前言

赛题：零基础入门数据挖掘 - 二手车交易价格预测
地址：https://tianchi.aliyun.com/competition/entrance/231784/information
时间：2020.03.21

数据概况

数据：训练集 - 15万；测试集A - 5万；测试集B - 5万；对 name、model、brand 和 regionCode 等信息进行脱敏

train.csv

SaleID - 销售样本ID	# ID不可用特征
name - 汽车编码	
regDate - 汽车注册时间
model - 车型编码	# IF 丰田 进口丰田 一汽丰田,车牌号
brand - 品牌	# IF, 二手车更看重质量,物美价廉,品牌决定下限
bodyType - 车身类型	# 两厢车 三厢车 掀背车 旅行车 硬顶敞篷车 软顶敞篷车 跑车 MPV SUV
fuelType - 燃油类型	# 燃料价格和车身类型 IF, 汽油油价 - SUV
gearbox - 变速箱	# 手动变速箱 IF
power - 汽车功率	# IF
kilometer - 汽车行驶公里	# IF
notRepairedDamage - 汽车有尚未修复的损坏	# IF,试车须知
regionCode - 看车地区编码	# IF,不同地方,不同经济水平,不同地理环境,适用车型不同
seller - 销售方	# 一般二手车商会去拍卖会，4s店等地方拿车，然后再在市场销售
offerType - 报价类型
creatDate - 广告发布时间	# 可能和当时社会经济有关
price - 汽车价格	# IF
# 【匿名特征，包含v0-14在内15个匿名特征】 
v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14'
# 个人补充特征　
当时的社会经济状况 - 当燃油汽车被新能源取代,国家扶持政策等
二手烟 - 吸烟与不吸烟
汽车颜色 - 那种颜色更好？ IF
轮胎新旧
改装车
保值率高低因素影响 - 汽车的性能、价格变动幅度、可靠性、配件价格及维修便捷程度等
保养的好坏对价格的影响最值得关注
年限对二手车价位的影响是起决定性作用的
保险金和过户费
。。。先这些, 部分特征有交集。。。

预测指标

二手车交易价格预测的模型评价标准为 MAE(Mean Absolute Error):
$\frac{∑^n_{i=1}|yi−\hat{y}_{i}|}{n}$
其中 $y_i$ 代表第i个样本的真实值，其中 $\hat{y}_{i}$ 代表第i个样本的预测值。MAE代表平均绝对误差，是回归预测常用的评价指标。MAE值越小，表示误差越小，模型效果越好。

这里拓展一下其它的分类和回归评价指标：

分类算法常见的评估指标：

对于二元分类器/分类算法，评价指标主要有accuracy，[Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线
对于多元分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]

准确率、精确率、召回率、F-score、宏平均和微平均

回归预测类常见的评估指标：

平均绝对误差 (Mean Absolute Error，MAE)
均方误差 (Mean Squared Error，MSE)
平均绝对百分误差 (Mean Absolute Percentage Error，MAPE)
均方根误差 (Root Mean Squared Error)
$R^2$ (R-Square)

平均绝对误差（Mean Absolute Error，MAE）平均绝对误差，其能更好地反映预测值与真实值误差的实际情况，其计算公式如下：
$\frac{∑^n_{i=1}|yi−\hat{y}_{i}|}{n}$

均方误差（Mean Squared Error，MSE），均方误差，其计算公式为：
$MSE=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$

$R^2$ （R-Square）的公式为：

残差平方和：
$SS_{res}=\sum\left(y_{i}-\hat{y}_{i}\right)^{2}$
总平均值:
$SS_{tot}=\sum\left(y_{i}-\overline{y}_{i}\right)^{2}$

其中 $\overline{y}$ 表示y的平均值， $R^2$ 表达式为：
$R^{2}=1-\frac{SS_{res}}{SS_{tot}}=1-\frac{\sum\left(y_{i}-\hat{y}_{i}\right)^{2}}{\sum\left(y_{i}-\overline{y}\right)^{2}}$

$R^2$ 用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围是 0~1， $R^2$ 越接近1，表明回归平方和占总平方和的比例越大，回归线与各观测点越接近，用x的变化来解释y值变化的部分就越多，回归的拟合程度就越好。所以 $R^2$ 也称为拟合优度（Goodness of Fit）的统计量。

$y_i$ 表示真实值， $\hat{y}_i$ 表示预测值， $\overline{y}_i$ 表示样本均值。 $R^2$ 得分越高拟合效果越好。

分析赛题

传统的数据挖掘问题，应用机器学习或深度学习建模解决
典型的回归问题，主要应用xgb、lgb、catboost、pandas、numpy、matplotlib、seabon、sklearn、keras等工具分析
通过EDA来挖掘数据的联系和自我熟悉数据

代码实现

# pandas 读取数据
import pandas as pd
import numpy as np

## 1) 载入训练集和测试集；
path = './datalab/231784/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

print('Train data shape:',Train_data.shape) # (150000, 31)
print('Test_A data shape:',Test_data.shape)	# (50000, 30)

# 分类指标评价计算示例
## accuracy
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print('ACC:',accuracy_score(y_true, y_pred)) # 0.75
## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))  # 1.0
print('Recall',metrics.recall_score(y_true, y_pred))  # 0.5
print('F1-score:',metrics.f1_score(y_true, y_pred)) # 0.666
## AUC
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:', roc_auc_score(y_true, y_scores))  # 0.75

# 回归指标评价计算示例
from sklearn import metrics
## MAPE需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])
## MSE
print('MSE:', metrics.mean_squared_error(y_true, y_pred))
## RMSE
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
## MAE
print('MAE:', metrics.mean_absolute_error(y_true, y_pred))
## MAPE
print('MAPE:', mape(y_true, y_pred))
## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:', r2_score(y_true, y_pred))

经验总结

赛题理解是极其重要的，对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择，最主要是会影响后续发展工作的方向，比如挖掘特征的方向或者解决问题的方向。主要分为几个方面：

理解什么：是什么类型的问题？哪些特征是有意义的？特征与目标间的相关性？特征与特征间的相关性？这些特征能否做到线上线下的一致性，能否有利于进一步探索更高线上分数的线下验证方法？这题的难点可能在哪里，关键点可能在哪里，哪些地方可以挖掘更好的特征，用什么样的线下验证方式更为稳定，出现了过拟合或其他问题，预计可以用什么方法来解决，哪些数据是可靠的，哪些数据是干扰的，哪些数据是需要精密处理的等
评价指标：构建一个合理的本地验证集和验证的评价指标是很关键的步骤，能有效的节省时间
可能隐藏的条件：比如高效性要求，比如对于数据异常的识别处理(缺失值、极端值)，比如工序流程的差异性，比如模型运行时间，比如模型的鲁棒性。如果模型预测效果不好，也要反过来思考，是不是赛题理解不到位或有什么背景问题没考虑到。

关于 Datawhale

Datawhale是一个专注于数据科学与AI领域的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner，和学习者一起成长”为愿景，鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案，赋能人才培养，助力人才成长，建立起人与人，人与知识，人与企业和人与未来的联结。

— End —
By: AI蜗牛车

ai_trainer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门数据挖掘-Task1 赛题理解

Datawhale 零基础入门数据挖掘-Task1 赛题理解前言数据概况预测指标分析赛题代码实现经验总结关于 Datawhale前言赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/information时间：2020.03.21数据概况数据：训练集 - 15万；测试集A...
复制链接

扫一扫