数据分析介绍之一——单变量数据观察之抖动图
一、单变量数据关注的几个问题
- 数据点的位置在哪里,它们如何传播?什么是典型数据、最小和最大值?
- 数据是如何分配的? 它们是均匀分布还是在某些地方聚集?
- 有多少个点? 这是一个大数据集还是比较小的?
- 分布对称还是不对称? 换句话说,分布的尾巴在一边是否比另一边更大?
- 分配的尾巴是否相对较重(即,许多数据点远离中心点),或者是大部分要点——可能除了个别异常值,分布于某个限制区域?
- 如果有群集,有多少个? 是否只有一个,或有几个?群集位于哪里,以及它们在扩展方面以及属于每个群集的数据点的数量有多大?
- 集群是否可能叠加在某种形式的非结构化背景上,或者整个数据集是否仅由聚类数据点组成?
- 数据集是否包含任何重要的异常值——即数据点与所有其他数据点不同?
最后,数据集中有什么其他不寻常或重要的特征——区间、截止值、异常值,我们可以观察到的一切吗?
可以看出,即使是一个简单的单列数据集也可以包含很多不同的特征!
二、点和抖动图
假设给出以下数据集,其中显示了所有过去的美国总统以及每个在办公室工作的月数。虽然这个数据集有三列,但我们可以将其视为单变量,因为我们只对在 办公室 - 这些名字对我们无关紧要。 我们对典型的任期可以说什么?
1 Washington 94