阿里云笔记

数据划分

1.训练集

2.开发集

3.测试集

赛题分析
1.通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
2.此题是一个典型的回归问题。
3.通过EDA来挖掘数据的联系和自我熟悉数据。

一般问题评价指标说明:

什么是评估指标:
评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)

一般来说分类和回归问题的评价指标有如下一些形式:

分类算法常见的评估指标如下:

  • 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
  • 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

对于回归预测类常见的评估指标如下:

  • 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)

赛题理解是极其重要的,不可以只简单的读一遍,要从直观上梳理问题,分析问题的可行方法,在开始之前,要对赛题数据有初步了解,方便后续的进行。

每个赛题的评价指标是不同的,针对不同的赛题侧重点不一样。

载入各种数据科学以及可视化库:

  • 数据科学库 pandas、numpy、scipy;
  • 可视化库 matplotlib、seabon;
  • 其他;

载入数据:

  • 载入训练集和测试集;
  • 简略观察数据(head()+shape);

数据总览:

  • 通过describe()来熟悉数据的相关统计量
  • 通过info()来熟悉数据类型

判断数据缺失和异常

  • 查看每列的存在nan情况
  • 异常值检测

 

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值