数据分析与机器学习入门(一)——EDA探索性数据分析(持续更新中...)

与传统的统计分析方法的区别:

传统:先假定数据服从某种分布,然后运用这种模型进行预测,以概率论为基础,做各种的参数检验。
EDA:“抛开”概率理论,从数据出发,强调数据可视化

单变量分析

基本统计量(中位数、四分位数、偏度、峰度等等)
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观
直方图
- 对称?
- 分散?
- 异常值?
- 有间隙?
箱线图
- 异常值?
- 对称?
- 比较几批数据的形状
正态性检验
- 图示法:
- 直方图钟型?
- 箱线图
- QQ图
- 非参数检验方法

两个变量的分析

线性相关?
秩相关?
关联性如何?
注意
先绘制散点图
要求两变量来自正态总体
出现异常值慎用

报表

在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息:
- 数据缺失?
- 有异常值?
- 特征有冗余?
- 分布情况?
- 样本是否重复?
- 样本是否平衡? 尤其是在进行机器学习训练分类器的时候,不同类别的样本数量应该大致相同,如果不相同,可采用上采样或者下采样的方法(后文会讲到)
- 是否需要抽样?
- 是否需要降维?
- 能否构造更有价值的特征?
- 连续特征是否需要离散化?
- 是否需要对变量进行重新计算?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值