数据的图表展示

0X00 引言

合理使用图标描述统计结果可以直观的表现出数据传达出来的信息,让受众更容易了解数据背后的信息,聚焦数据展示出来的问题,是应用统计的基本技能之一。

0X01 数据的预处理

数据的预处理是在对数据分类或者分组前所作的必要处理,包括数据的审核、筛选、排序等。

  1. 数据审核;就是检查数据中是否又错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面审核。对于通过其他渠道取得的二手数据,应着重审核数据的实用性和时效性。
  2. 数据筛选;根据需要找出符合特定条件的某类数据,这部分操作可以交给计算机来完成,通常使用的方式为SQL、excel、spass。
  3. 数据排序;是指按照一定的顺序将数据排列,以便发现一些明显的特征或者趋势,找到解决问题的线索;此外,排序还有助于队数据进行检查纠错,为重新归类或分组提供方便。排序又降序和升序之分,习惯上常用升序。字母型数据按照 字母的自然顺序;汉字行数据可以使用拼音首字母;数值型数据排序也是这两种,排序后的数据成为顺序统计量。排序操作可以借助excel或者数据库来完成。

0X02 品质数据的整理和展示

数据经过预处理后根据需要进一步做分类或者分组。对品质数据主要是做分类整理,对数值型数据则主要做分组整理。品质数据包括分类数据和顺序数据。

分类数据的整理与展示
常用参数
  1. 频数;落在某一特定类别或者组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来称之为频数分布。
  2. 比例;各个部分的数据与全部数据之比,通常反应样本(或总体)的够成或者结构。将比例乘以100称之为百分比,用%表示。
  3. 比率;是样本中不同类别数据之间的比值,由于比率不是部分与整体之间的关系,依次比值可能大于1。
常用图例
  1. 条形图;是用宽度相同的条形的高度或者长短来表示数据多少的图形
  2. 帕累托图;按各类别数据出现的聘书多少排序后绘制的条形图。左侧纵轴给出频数,左侧纵轴给出累计百分比。
  3. 饼图;是用原型及圆内扇形的角度来表示数值大小的图形,主要表示样本(总体)中,各组成部分的数据占全部数据的比例,对研究结构性数据十分有用。
  4. 环形图;饼图变种,可以展示多个样本的各个组成部分的比例。
顺序数据的整理与图示

分类数据的频数分布表和图示方法也都适用于对顺序数据的整理与图示,还可以计算累计频数和累计频率。累计频数是将各有序类别或组的频数逐级累加起来得到的频数,累加方法有两种:向上和向下。区别在于从类别顺序开始的方向。累计频率也是如此。

数值型数据的整理与展示

分类数据和顺序数据的整理和图示方法也都适用于数值型数据,数值型数据有其特有方法。数据分组根据统计研究的需要,将原始数据按照某种标准份成不同的组别,分组后的数据称之为分组数据。数据分住的主要目的是观察数据的分布特征。数据分组的方法有单变量值分组和组距分组两种。

  1. 单变量值只适合离散变量,且变量值较少的情况下使用。
  2. 连续标量或者变量值比较多的情况下使用组距分组。在组距分组中,最小值最大值分别称之为下限及上限。组距为一个组的上限与下限的差。采用组距分组时,需要遵循不重不漏的原则,习惯上规定当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不在本组内,而是计算在下一组内。即,a <= x < b。组距分组根据组距是否相等分为等组距分组和不等组距分组。组距分组掩盖了各组内的数据分布情况,为放映各组数据的一般水平,通常用组中值作为该组数据的代表值,计算方式为该组上限与下限之和的二分之一;使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内成均匀分布或在组中值两侧呈对称分布。
数值型数据的图示
  1. 分组数据:直方图
  2. 未分组数据:茎叶图和箱线图
  3. 时序数据:线图
多变量数据的图示
  1. 散点图,二维坐标展示两个变量之间关系
  2. 气泡图,三个变量之间的关系
  3. 雷达图,显示多个变量的常用图示方法,显示或者对比各变量的数据综合时十分有用,可以研究多个样本之间的相似程度。

0X03 合理使用图表

统计表把杂乱的数据有条理的组织在一张见名的表格内,统计图把数据形象的显示出来,正确使用统计表和统计图时做好统计分析的最基本的技能。精心设计的图形要准确表达数据索要传递的信息,应该绘制的简介,以清晰地显示数据、合理地表达统计目的为依据。具体原则参考爱德华·R.塔夫特的图优性理论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值