数据科学与大数据分析学习笔记-4探索性数据分析

最新推荐文章于 2021-12-16 21:50:21 发布

Jifu_M

最新推荐文章于 2021-12-16 21:50:21 发布

阅读量984

点赞数

分类专栏：数据科学与大数据分析文章标签：大数据

本文链接：https://blog.csdn.net/Jifu_M/article/details/111771614

版权

探索性数据分析

Anscombe’s quartet
Dirty Data
可视化单个变量
研究多个变量
评估统计方法之Hypothesis testing

线性关系和分布更难从描述性统计中看出。
检测数据中的模式和异常
–通过可视化的探索性数据分析
–可视化提供简洁、整体的视图
–可视化是初始数据探索的一个重要方面。

分析前先可视化分析前的可视化非常重要！

Anscombe’s quartet

Anscombe’s quartet
The four data sets have nearly identical statistical properties.
–such as mean of x and y, variance, correlations and linear regression line.
根据每个数据集中几乎相同的统计属性，人们很容易认为这 4个数据集非常相似
However, scatter diagram can give different answer–可视化的重要性
然而，事实上这4个数据集完全不同：

为什么会出现这种情况呢？
原因之一：脏数据 Dirty Data

Dirty Data

Dirty Data
– Detect dirty data with visualization
– Look for anomalies, verify with domain knowledge
– Clean the data appropriately
我们可以用可视化来检测脏数据。
通过可视化,我们通过领域知识来寻找异常,根据情况来理性的选择正确的脏数据处理方法以得到干净的数据。

可视化单个变量

Dot chart and Bar plot
Histogram and density plot (under log transformation)

研究多个变量

多变量的scatter diagram
多变量的Point and bar charts

箱线图（box-and-whisker plot）

相比于其他图，想看懂这个图需要有一些统计学知识
box-and-whisker plot
盒中的线–>中位数值
盒子的上下边缘对应数据的第一和第三个四分位
• 第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。
• 第二四分位数(Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。
• 第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。
(interquartile range, IQR) IQR = Q3 − Q1
从盒子顶部到最高值的直线大概在 1.5倍 IQR之内，而盒子底部到最低值的直线也大概在 1.5倍 IQR 之内.
那些超出直线范围之外的点可以被理解为异常值

最低0.47元/天解锁文章

Jifu_M

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据科学与大数据分析学习笔记-4探索性数据分析

探索性数据分析Anscombe’s quartetDirty Data可视化单个变量研究多个变量箱线图（box-and-whisker plot）适用于大型数据集的蜂巢图(hexbinplot for large data)scatterplot matrix散点图矩阵Data Exploration Versus Presentation评估统计方法之Hypothesis testingA common hypothesis test---Difference of MeansStudent’s t-te
复制链接

扫一扫