图书推荐:王汉生《数据思维》
文章目录
图形的宗旨是传递信息的嘛
1. 根据数据类型画图
连续性变量:直方图、折线图
.
.
.
...
...
离散型变量:柱状图、饼图
.
.
.
...
...
类别变量&连续型变量:(分布)箱线图
2. 统计图注意事项
标题
- 位置:上表下图(表标题放表上方,图标题放图下方)
- 唯一: 报告里需要写title,图上就不要多次一举!图例也是,一次就好!!!
- 准确:图形类型要准确,分清楚条形图、柱状图、直方图,不要自己造名字乱写
横纵轴
- 名称:标注清楚,纵轴如有单位,需注明
整体
- 文字语言统一:切勿中英混杂
- 配色美观:别丑到别人
- 比例协调:胖瘦适宜
3. 柱状图
单分类变量——柱状图(类别,频数/值)
- 柱状图的柱与住之间是有空隙的。
- 柱子个数:5个左右。2个太少,很丑,修改建议文字叙述即可;柱子太多时,可将频数少的合并为“其他”。另说明“其他”包含的内容。
- 排列有序:要么按照横轴内容有序,要么按照频数多少升序或降序。
- 同一变量,只展示最具表现力的统计量,不要中位数、方差、标准差都用柱状图来一遍。
tips: 线性回归可以用柱状图表示,纵轴表示系数大小,颜色表示显著性。
两分类变量——堆砌柱状图
- 选色慎重:勿选同系列色做一套堆砌柱状图,例如姨妈红、樱桃红、橘红 . . . ... ...不要摆出色弱测试的架势啊!
4. 饼图
-
饼块数:控制在5个左右。
- 块数过多
- 将比例不到5%的归为“其他”类,注释或报告中解释“其他”包含哪些内容。
- Excel,复合图
- 块数很多,但类别中分布均匀,饼图OK
-
饼的标签:尽量在饼块旁注明类别。饼中有比例即可,不需要频数
-
饼的配色:面积大块浅色,小块用深色。
5. 折线图
信息:
趋势、周期、波峰波谷
- 纵轴范围调整在数值最值附近
- 三根折线两纵轴,没法比
- 信息太多,乱!
6.箱线图
箱子整体被压缩的原因:
- 存在特别大或特别小的异常值,导致箱子整体被压缩,凸显出这种异常
- 样本数据特别少
修改建议:若数值为正值,可进行对数变换,或者不建议画箱线图