数据处理之图形绘制


统计图最常用的就几种:饼图、柱状图、条形图、直方图、折线图 、散点图、箱线图等。好的图形能够让读者一样就能看出数据的规律和特点,其传递给读者的信息是准确和有效的,准确是指我们不能随意绘制图形,因为每个统计图适用的数据是有限制的;有效是指图形传递出来的信息和你得到的结论是吻合的;这是一个图形要满足的最基本两点。
另外,要评价一个图形是否画的好,主要看其是否简洁和美观,我们绘制出来的图表包含的信息一定要清晰明显,不能花里胡哨,另外一定要注意图形的配色。

1.饼图

使用场景:

  1. 只有一个数据系列(单分类数据)。

  2. 任何数据值都不为零或小于零。

  3. 类别不超过七个。因为七个以上的扇区会使图表难以阅读。

  4. 划分的类别最好是完整的,一般不完整时可以加其他。
    四个季度完整的饼图
    在这里插入图片描述
    从完整的四个季度的饼图到排好序后的饼图都是简单易懂的。

  5. 类别过多可用复合饼图时,千万别硬要画一个完整饼图。

  6. 类别只有两个时就不用画图了,没多大必要。
    在这里插入图片描述
    注意:不用在图中加入标题,我们一般在论文的正文中加入(表上图下)。
    另外,画出来的图一定要有分析,要告诉读者你画图的目的是什么。

2.柱状图

柱状图常常用于展示多个分类(单个分类也可以)的数据变化和同类别各变量之间的比较情况。堆积柱状图可用于比较同类别各变量和不同类别变量总和差异;百分比堆积柱状图适合展示同类别的每个变量的比例。
在这里插入图片描述
可以切换行和列对于多图。
柱状图相比于饼图更加适合再数据量多且有分类的时候,就很容易看出数据的特征。
在这里插入图片描述
同时还可以用柱状图来有效显示信息
在这里插入图片描述
用红色和黑色区分是否显著,用上下区分正负。
若对自变量进行了标准化,那么柱子的高度,也就是系数的估计值有可比性,可以直观地区分出自变量对因变量的影响大小。

3.条形图(横过来的柱状图)

类别数过多时,如果要加入数据标签,那么使用条形图比较合适柱状图的数看起来有点拥挤。
在这里插入图片描述
同时再对数据进行一定排序,结果就比较直观和好看。

还可以采用一定的技巧绘制双向条形图,可视化的效果很好。
主要是用在两类数据的对比,比如男女年龄段数据。
在这里插入图片描述
那么这么好看的图是怎么画出来的呢?
1.处理数据,做出辅助列
在这里插入图片描述
2.数据处理和绘图
这个时候直接插入图形就可以得到两边分布的情况,但这远远不够,还需再进行坐标轴设置,把左边的坐标轴也设置为正数,然后再调节颜色和间距就可以了。
在这里插入图片描述

4.直方图

直方图是显示数据频数或频率的柱状图。
其中横坐标通过一定组距范围显示,我们可以通过一些调试来找到最佳的效果。
在这里插入图片描述
而对于频率直方图的绘制会更加麻烦
需要我们从频数转变到频率。可以利用数据分析工具来进行操作,这里不过多介绍。

区分直方图和柱状图
直方图和柱状图最让人迷惑的地方,就是它们长得非常相似。实际上,直方图和柱状图无论是在图表意义、适用数据上,还是图表绘制上,都有很大的不同。
1.直方图展示数据的分布,柱状图比较数据的大小。
2.直方图X轴为定量数据,柱状图X轴为分类数据。
3.直方图y轴要么为数据的频数,要么为数据的频率,柱状图y轴为数据

4.折线图

如果数据是时间序列数据(如日、月、季度或年度数据),则应该考虑使用折线图,尤其是时间跨度长且存在多个时间序列时,更应该使用折线图 。(折线图也经常被称为时间序列图,或简称为时序图)
当然,时间序列期数较少时,也可以考虑使用柱状图哦。
在这里插入图片描述
对比之下还是折线图清楚一点。
还可以画双坐标折线图
同时,在折线图中存在一些问题,可能把作为横坐标的年份变成了数据,自动生成了数据,这个时候的处理方法可以是把数据变成文本再绘图。

同时,还可以绘制一种厉害的折线图。
在这里插入图片描述
绘制方法就是可以数据按一列,中间加入空格就可以得到结果
插入两组一样的数据,用一组数据做折线图,一组做面积图。

6.散点图

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的
数值决定。
通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如右图所示。那些离点集群较远的点我们称为离群点或者异常点。
在这里插入图片描述

在这里插入图片描述
还可以加入标识和趋势线,虽然效果可能不太好对于趋势线。

7.箱线图

箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据
分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别
数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。

计算过程:
1 计算上四分位数、中位数、下四分位数以及均值;
2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range);
3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数,在箱子内部中位数的位置绘制横线;
4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers);
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的边缘;
6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍‐3倍四
分位数差之间的异常值,用空心点表示;
7 为箱线图添加名称,数轴等,并在图中用×标记出数据的均值位置。
在这里插入图片描述
箱线图的作用
箱线图的用法是,配合定性变量画分组箱线图,作比较。如果只有一个定量变量,很少用一个箱线图去展示其分布,更多选择直方图。箱线图更有效的使用方法是作比较。
假设要比较男女生的身高,用什么工具最好?答案是箱线图。
箱线图明显更加有效,能够从平均水平(中位数)、波动程度(箱子高度)以及异常值对男女教师的教学评估得分进行比较,而直方图却做不到。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值