线性关系和分布更难从描述性统计中看出。
检测数据中的模式和异常
–通过可视化的探索性数据分析
–可视化提供简洁、整体的视图
–可视化是初始数据探索的一个重要方面。
分析前先可视化分析前的可视化非常重要!
Anscombe’s quartet
The four data sets have nearly identical statistical properties.
–such as mean of x and y, variance, correlations and linear regression line.
根据每个数据集中几乎相同的统计属性,人们很容易认为这 4个数据集非常相似
However, scatter diagram can give different answer–可视化的重要性
然而,事实上这4个数据集完全不同:
为什么会出现这种情况呢?
原因之一:脏数据 Dirty Data
Dirty Data
Dirty Data
– Detect dirty data with visualization
– Look for anomalies, verify with domain knowledge
– Clean the data appropriately
我们可以用可视化来检测脏数据。
通过可视化,我们通过领域知识来寻找异常,根据情况来理性的选择正确的脏数据处理方法以得到干净的数据。
可视化单个变量
- Dot chart and Bar plot
- Histogram and density plot (under log transformation)
研究多个变量
多变量的scatter diagram
多变量的Point and bar charts
箱线图(box-and-whisker plot)
相比于其他图,想看懂这个图需要有一些统计学知识
盒中的线–>中位数值
盒子的上下边缘对应数据的第一和第三个四分位
• 第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
• 第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
• 第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
(interquartile range, IQR) IQR = Q3 − Q1
从盒子顶部到最高值的直线大概在 1.5倍 IQR之内,而盒子底部到最低值的直线也大概在 1.5倍 IQR 之内.
那些超出直线范围之外的点可以被理解为异常值