茎叶图
茎叶图(Stem-and-Leaf Plot)是一种直观的数据分布图表,用于展示数据集的频率分布,同时能够较好保留原始数据值;茎叶图无法处理高维数据,仅适用于单变量分布分析,多变量分析需要其他可视化工具(如散点图、直方图);茎叶图更适合离散数据或分布范围较小的连续数据。
结构与构成
1. 茎(Stem):
- 通常是数据的高位数字部分(如十位数、百位数,这里记录的是千分位数)。
- 列在图表的左侧,用于展示数据的千分位分组情况。
2. 叶(Leaf):
- 通常是数据的低位数字部分(如个位数)。
- 列在图表的右侧,用于具体表示此位数字(此处展示的是百分位数,未四舍五入)。
3. 分隔符:
- 一条垂直线 "|" 用于分割茎、叶。(此处SPSS的茎叶图使用"."做分隔符)
茎叶图展示的信息
1. 数据的分布情况:
- 能直观显示数据集中在哪些区域。
- 与直方图类似,但保留了数据的精确值。
2. 数据的集中趋势:
- 可观察到数据的中位数和众数。
3. 数据的分散程度:
- 数据的离散性和范围可以从茎叶的扩展程度中体现。
4. 数据形态:
- 能判断数据是否偏斜,以及是否有异常值。
示例
数据使用*大学生月消费数据*(部分)如下:
*性别:{1, 男;2,女};家庭所在地:{1,大型城市;2,中小城市;3,乡镇地区} *
茎叶图结果如下:
对原始数据排序后得到以下数据,方便对比茎叶图:
解读:
先看向下方,Stem width:1000,表示茎的宽度为1000,即茎(Stem)所显示是/1000简化后的数字,Each leaf:1 case(s),表示每个叶代表的数据量为1。再向上看,由茎叶图主图可得:
- 茎 `1` 表示数据的千分位为 `1`,叶为 `1`,对应完整数据 `1100`。
- 茎 `1` 表示数据的千分位为 `1`,叶为 `3333`,对应完整数据 `1300,1300,1300,1350`。
类比可以得到其他茎叶代表的数据……
茎叶图的优点
- 保留原始数据值,比直方图信息更详细。
- 制作简单,适用于较小规模的数据集。
茎叶图的缺点
- 数据量过大时难以使用:如果数据点过多,茎叶图会变得冗长且不易阅读。
- 无法处理连续数据:茎叶图要求数据是离散的或经过离散化处理,无法直接展示连续分布的情况。
- 对小数的支持有限:需要进行缩放或舍入才能处理小数。
最后,欢迎指正、发表建议;SPSS的茎叶图分级逻辑没太看明白,分级的跨度也不固定
相关内容引导:双向茎叶图、茎叶图变体