数据科学与大数据分析学习笔记-4探索性数据分析


线性关系和分布更难从描述性统计中看出。
检测数据中的模式和异常
–通过可视化的探索性数据分析
–可视化提供简洁、整体的视图
–可视化是初始数据探索的一个重要方面。

分析前先可视化分析前的可视化非常重要!

Anscombe’s quartet

Anscombe’s quartet
The four data sets have nearly identical statistical properties.
–such as mean of x and y, variance, correlations and linear regression line.
根据每个数据集中几乎相同的统计属性,人们很容易认为这 4个数据集非常相似
However, scatter diagram can give different answer–可视化的重要性
然而,事实上这4个数据集完全不同:
4个数据集
为什么会出现这种情况呢?
原因之一:脏数据 Dirty Data

Dirty Data

Dirty Data
– Detect dirty data with visualization
– Look for anomalies, verify with domain knowledge
– Clean the data appropriately
我们可以用可视化来检测脏数据。
通过可视化,我们通过领域知识来寻找异常,根据情况来理性的选择正确的脏数据处理方法以得到干净的数据。

可视化单个变量

  1. Dot chart and Bar plot
  2. Histogram and density plot (under log transformation)

研究多个变量

多变量的scatter diagram
多变量的Point and bar charts

箱线图(box-and-whisker plot)

相比于其他图,想看懂这个图需要有一些统计学知识
box-and-whisker plot
盒中的线–>中位数值
盒子的上下边缘对应数据的第一和第三个四分位
• 第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
• 第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
• 第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
(interquartile range, IQR) IQR = Q3 − Q1
从盒子顶部到最高值的直线大概在 1.5倍 IQR之内,而盒子底部到最低值的直线也大概在 1.5倍 IQR 之内.
那些超出直线范围之外的点可以被理解为异常值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值