合理使用图表描述统计结果是应用统计的基本技能之一。
文章目录
数据的预处理
数据审核
检查原始数据raw data是否有错误,调查所得数据主要关注数据完整性、准确性。
二手数据着重审核数据的适用性、时效性。
数据筛选
找出符合特定条件的某类数据。
数据排序
按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
数据透视表
Excel中的pivot table工具,对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表(列联表)
定性数据的整理与展示
定性数据包括分类数据和顺序数据。
分类数据的整理与图示
列出所分的类别,然后计算每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示。
数据的整理与计算
- 频数(frequency):落在某一特定类别或组中的数据个数。把各类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequency distribution)。
其中,两个或两个以上变量交叉分类的频数分布表也称为列联表(contingency table),二维的列联表(两个变量交叉分类)也称为交叉表(cross table) - 比例(proportion):也称构成比,指一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。
- 百分比(percentage):比例乘以100得到的数值,用%表示。
- 比率(ratio):样本(或总体)中不同类别数据之间的比值。由于比率不是部分与整体之间的对比关系,因此比值可能大于1.
比例与百分比注意区分,尤其是英文写作时。
分类数据的图示
一张好的统计图表往往胜过冗长的文字表述。
- 条形图(bar chart):用宽度相同的条形的高度或长短来表示数据多少的图形。可横置或纵置,纵置时也称柱状图(column chart)。有简单条形图、复式条形图等形式。
- 帕累托图(Pareto chart):如下图所示,用双直角坐标系表示,左边纵坐标表示频数(count),右边纵坐标表示频率。分析线表示累积百分比,横坐标各类别按频数从高到低排列,
- 饼图(pie chart):用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
- 环形图(doughnut chart):简单饼图只能显示一个样本各部分所占的比例,多个样本各部分所占比例的表示需要用到环形图。饼图叠加挖去中间部分。
条形图和饼图更常用些,帕累托图见得比较少。
顺序数据的整理与图示
上述关于分类数据的频数分布表和图示方法都适用于对顺序数据的整理与显示。
数据的整理与计算
累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来得到的频数。累积方法有向上累积和向下累积。
累积频率或累积百分比(cumulative percentages):将各有序类别或组的百分比逐级累加起来,也分向上累积和向下累积。
顺序数据的图示
根据累积频数或累积频率,可以绘制累积频数分布或频率图。
定量数据的整理与展示
以上介绍的分类和顺序数据的整理与图示方法,也都适用于数值型数据。
数据分组
根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据(grouped data)。
单变量值分组:把每一个变量值作为一组,只适合变量值较少的离散变量的情况。
组距分组:将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组。适合连续变量或变量值较多的情况。
等距分组步骤:
- 确定组数(5-15)
- 确定组距class width=(最大值-最小值) ÷ \div ÷组数
- 根据分组整理成频数分布表
不等距分组:如人口年龄0-6(婴幼儿组)7-17(少年儿童)18-59(中青年组)60岁及以上(老年组)
数据的图示
上述的条形图、饼图、环形图及累积分布图都适用。
分组数据:直方图、折线图和曲线图
直方图(histogram):用矩形的宽度和高度(即面积)来表示频数分布的。
与条形图的不同:1. 条形图用条形的长度表示各类别的频数多少,其宽度(表示类别)则是固定的。直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数与频率,宽度则表示各组的组距。2. 分组数据具有连续性,所以直方图的各矩形通常连续排列,而条形图则是分开排列。3. 条形图用于展示分类数据,直方图主要用于展示数值型数据。
未分组数据:茎叶图和箱线图
- 茎叶图(stem-and-leaf display):既给出数据的分布状况,又给出每一个原始数值,保留了原始数据的信息。
- 箱线图(box plot):由一组数据的最大值(maximum)最小值(minimum)中位数(median)两个四分位数(quartiles)这5个特征值绘制而成的,主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
时间序列数据:线图
线图(line plot):反映现象随时间变化的特征。一般应绘成横轴略大于纵轴的长方形,长宽比大致为10:7,纵轴下端应从0开始。
多变量数据的图示
以上介绍的图形描述的都是单变量数据,当有两个或两个以上变量时,可以采用散点图、气泡图、雷达图等。
- 散点图(scatter diagram):用二维坐标展示两个变量之间关系的一种图形。横轴代表变量x,纵轴代表变量y,每组数据在坐标系中用一个点表示。
- 气泡图(bubble chart):可用于展示三个变量之间的关系。与散点图类似,多出部分为用气泡的大小表示第三个变量值。
- 雷达图(radar chart):也称蜘蛛图(spider chart),如王者荣耀里的六边形战士。
数据类型及图示方法汇总如下:
合理使用图表
图形应有的基本特征
- 显示数据。
- 让读者把注意力集中在图形的内容上,而不是制作图形的程序上。
- 避免歪曲。
- 强调数据之前的比较。
- 服务于一个明确的目的。
- 有对图形的统计描述和文字说明。
统计表的设计
统计表一般由四个主要部分组成,表头、行标题、列标题和数据资料,必要时在表下方加上附加(注/资料来源等)。
科学、实用、简练、美观
- 合理安排统计表的结构。
- 表头一般应包括表号、总标题和表中数据的单位等内容。
- 表左右不封口,对齐方式,缺省值的填充等。
- 注明数据来源,尊重他人劳动成果,以备读者查阅使用。