图表能够帮助我们从大量的数据中提取出信息,并把它们转化成直观而有趣的形式,揭示出数据分布的一般特征,是最为简单也最常用的一类统计分析工具。图表的最大优势就是直观、形象。为了既有助于引导读者理解数据,又避免造成错误的印象,绘制图表时应注意以下几点:
- 正确理解不同图表的用途,合理选择图表;
- 真实展示数据特征,合理安排图表结构;
- 遵循图表制作规范;
接下来介绍条形图,饼图,环形图,直方图,箱线图,散点图,雷达图的使用方法。
条形图(bar chart)
条形图条形图(bar chart)是用宽度相同的条形来表示数据中不同类别出现频数的高低。类别变量既可以放在横轴,也可以放在纵轴,相应的另一个坐标轴则为频数(也可以是百分比)。显然,条形图在保留频数分布表中的具体数字之外,更加直观地展示了不同类别频数的高低差异。我们还可以根据分析需要将上述两个类别变量绘制在同一个条形图中进行交叉比较,这就是复式条形图。通常情况下,条形图便于观察一组数据中不同类别出现频数的绝对值高低,但如果希望揭示一组数据中各类别的频数在总频数中所占百分比的结构状况,则更适合绘制饼图。
饼图(pie chart)
饼图(pie chart)是将一个圆划分成多个扇形,用每个扇形的面积(即角度)大小代表不同类别的频数在总频数中所占的百分比。从饼图中我们可以更加直观地考察一组数据中不同类别个体的构成结构和相对频数大小(当然也可以在图中标注出每一类别的绝对频数值),即使数据量发生变化,只要内部结构没有变动,饼图中扇形的划分比例就将保持不变。分析不同性别的消费者对奶茶品牌的偏好结构。
环形图(doughnut chart)
环形图(doughnut chart)是将两个或两个以上的饼图叠放在一起,然后“挖去”中间的部分所构成的图形。环形图中用每一个环形代表不同的样本,同一个样本(同一个环)的不同构成部分则用环上的不同分段来表示。如果研究者需要同时对比多个样本数据的构成结构,则环形图展示的结果将更为直观和简洁。
直方图(histogram)
直方图(histogram)是用矩形的宽度和高度(即面积)来表示数值数据的频数分布。横坐标是数值变量的取值,每一个矩形的宽度对应的是数值数据分组后每一组的区间,纵坐标可以是频数也可以是百分比。直方图和条形图外观近似,容易引起混淆,但实际上两者的性质和功能完全不同。如前所述,条形图主要用于描述类别数据的频数分布,通常用矩形代表不同的类别,因此其宽度并没有实际意义。在条形图中,不同类别的矩形往往是分开排列的。而直方图则主要适用于描述数值数据的频数分布,矩形的宽度代表的是分组后各组的组距,有实际的数值含义。因此,在直方图中,各个矩形必然是连续排列的。
箱线图(box plot)
箱线图(box plot)是用于展示未分组的数值数据分布特征的另一类常用图形,其绘制步骤如下。首先,找出一组数据的3个四分位数,画出箱子。顾名思义,将一组数据由小到大排序,分别位于25%、50%和75%位置上的3个数将该组数据等分为四份,这3个数分别被称为下四分位数、中位数和上四分位数,分别用Q25%、Q50%和Q75%表示。上、下四分位数构成封闭箱子的边界,中位数位于箱子内部,箱子的长度即为上四分位数与下四分位数的差值,称为四分位差或四分位距,用IQR表示,代表了中间50%数据变动的范围。然后,计算出内围栏和相邻值,画出须线。内围栏是分别低于下四分位数和高于上四分位数1.5倍四分位差的两个值,其中,Q25%-1.5×IQR称为下内围栏,Q75%+1.5×IQR称为上内围栏。内围栏一般不在箱线图中显示,只是作为确定离群点的界限。取值位于上下内围栏之间的数据的最大值和最小值(即非离群点的最大值和最小值)称为上、下相邻值,用直线将上下相邻值分别与箱子连接,形成须线,代表了除离群点之外的所有数据的变动范围。最后,标出离群点。离群点是大于上内围栏或小于下内围栏的数值,在图中通常用“〇”单独标出。
散点图(scatter diagram)
散点图散点图(scatter diagram)是用于展示两个数值变量之间关系的一种常用图形。如果收集得到变量x对应变量y的两组数据,分别用横坐标和纵坐标代表两个变量,那么每一对数据(xi,yi)就可以标记为二维坐标系中的一个点,所有数据点构成的图形即为散点图。
雷达图(radar chart)
雷达图(radar chart)是从一个点出发,用不同方向的射线分别代表不同的变量,将同一个样本各个变量的取值落在射线上的点连接成一个“蜘蛛网”,多个样本则形成多个“蜘蛛网”。因此,雷达图也称蜘蛛网图或星图,可以在二维平面方便地展示多变量数据。