数据挖掘训练营赛题理解学习笔记

本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm

一.学习知识点概要:

理解赛题数据和目标,清楚评分体系,熟悉比赛流程。

二.学习内容

1.了解赛题

(1).赛题概况

根据给定的数据集,建立模型,二手汽车的交易价格。

来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。

(2).数据概况

对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。

(3).预测指标

A赛题的评价标准为MAE(Mean Absolute Error):

其中yi代表第i个样本的真实值,其中^yi代表第i个样本的预测值。

B.一般问题评价指标说明:

评估指标就是我们对于一个模型效果的数值型量化。一般来说分类和回归问题的评价指标有如下一些形式:

a.分类算法常见的评估指标如下:

  • 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
  • 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

b.对于回归预测类常见的评估指标如下:

平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)

  • 平均绝对误差 (Mean Absolute Error,MAE):平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:

  • 均方误差 (Mean Squared Error,MSE)其计算公式为:

  • R2(R-Square)的公式为: 残差平方和:

     总平均值:

得到R2表达式为:

R2用于度量因变量的变异中可由自变量解释部分所占的比例,取值范围是 0~1,R2越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以R2也称为拟合优度(Goodness of Fit)的统计量。

yi表示真实值,^yi表示预测值,¯¯¯yi表示样本均值。得分越高拟合效果越好。

(3).分析赛题

  • 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
  • 此题是一个典型的回归问题。
  • 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
  • 通过EDA来挖掘数据的联系和自我熟悉数据。

2.代码展示

(1).数据读取pandas.

(2).分类指标评价计算示例 

(3). 回归指标评价计算示例

三.学习问题与解答

在CSV文件的导入时,路径出现了错误,导致后续任务无法完成。通过自己的研究和尝试后,成功导入了数据集,并顺利完成相关任务。

四.学习思考与总结

本次任务使我掌握了分类指标评价和回归指标评价的方法,通过对数据的分析和解读,对赛题有了初步的理解。

 文章部分来源:

--- By: AI蜗牛车

    PS:东南大学研究生,研究方向主要是时空序列预测和时间序列数据挖掘
    公众号: AI蜗牛车
    知乎: https://www.zhihu.com/people/seu-aigua-niu-che
    github: https://github.com/chehongshu
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值