统计学指南

统计世界:相关就好

 


第一章:为什么要学习统计学

 


图表的玄机:既可以揭露谎言,也可以瞒天过海

一、操作横坐标

上面俩张图描述的是相同时间段的变化,左边的看起来是极速上升,右边的看起来缓慢上升。

实际上,这是同一张图,只不过右边的图是横向拉长了。

图表的拉伸和缩放,可以使得展示的信息不同。

因此,在观察统计图时要万分注意,重要的东西要用心看。

 
二、操作纵坐标

操纵后:

大家来找茬:

改变最大、最小值,图表的变化就大了。

如果某天我们看图表,图的坐标轴的最小值是非0数值,我们就应该知道是怎么回事,有人再搞小动作!

这是把数据波动增大的方法,还有一种把数据波动减少的方法,就是数据取值按照等比数列,而不是等差数列。

 
第三、数据标准化

这种方法不属于作弊,是为了不同的指标进行对比和加权,是一种常用的数据处理方法。

基本思想是,将数据按比例缩放,使得落入一个小的特定区间。

比如,按照某种公式将所有数据标准化映射到 [0, 1] 区间。

最简单的方法:直接将数据除以 10 的 N 次方(100、1000、1000),N取决于具体数据的最大值。


上图将数据缩小了 10000 倍,进行标准化处理,便于指标之间进行比较和加权。

 
第四、捏造趋势

一种常见的图表作弊方式。

假设有一组公司的财务数据:10、1、20、3、30、4、50,这组数据的波动性很大。


公司的财务数据这么不稳定,咋办?

没关系,如果我只挑选奇数项······

咳咳,照这样下去,明年公司就可以上市了。

所以,如果数据波动性很大,只挑选X轴中对自己有利的数据,就会改变数据的趋势。
 


被混淆的因果关系:让世界讲得通,学会分析事物之间的各种关系

话说1995年,美国有个叫麦克阿瑟·惠勒的中年男子,单枪匹马抢了两家银行。

银行的人没难为他,要钱给钱。电影里一般抢银行的都带个头套,但是惠勒没有采取任何伪装措施,他甚至还对着监控摄像头笑了笑,抢完银行就愉快地回家了。

当天晚上警察就抓住了他,并且出示了监控录像带的证据。惠勒感到很震惊。

惠勒说,不对啊,我已经在脸上抹了柠檬汁啊!

也许他听人说过柠檬汁可以隐形这个知识。但他显然误解了“隐形”的意思。

再看一个例子,研究发现:越是成功人士(收入越高),睡眠时间越短。

惠勒(一知半解的人)肯定会想,今晚就睡2个小时,明天薪水就过亿了。

背后的逻辑是:只要减少睡眠,收入就会增加,就会成功。

实际上,这里推理有严重的逻辑错误,把相关关系当作了因果关系。

  • 相关关系:A 越多,B 越多
  • 因果关系:A 越多,导致 B 越多

如果没有进一步的调查和理论,相关关系是推理不出因果关系的 — 睡眠少和成功存在相关关系,但不能说睡眠少导致了成功。

A 越多,B 越多,这种相关关系可能存在4种可能:(A睡眠,B收入,C年龄)

  • A 导致 B:更少睡眠导致收入增加
  • B 导致 A:收入增加导致睡眠减少
  • A、B 同时被 C 导致:随着年龄增长,人对睡眠需求减少,因此睡眠少,同时年龄大的人,往往经验、人脉、知识更多,也自然收入更多
  • A、B 没有任何关系:美国、西欧等经济发达,导致收入高,同时他们爱吃牛排,导致睡眠需求减少

因果关系只是其中的2种可能(第一种、第二种)。

所以,类似【相关关系:A 越多,B 越多】不一定是简单的因果关系,但因果关系一定是相关关系。

我们学习统计学,就是让世界讲得通,学会分析事物之间的各种关系。
 


第二章:统计小百科

统计是什么

统计是一门收集数据、处理和分析数据、解释数据并从数据中得出结论的科学。

统计学体系:

 
一、什么是描述统计?

描述统计的重点是描述一组数据的特征。

主要分为图表描述、统计量描述:

  • 图表描述:条形图、直方图、饼图、散点图······
  • 统计量描述:集中趋势(平均数、中位数、众数)、离中趋势(极差、方差、标准差、变异系数)、偏态和峰态(偏态系数、峰态系数)。

比如,

  • 散点图:描述一组数据的离散程度(图表描述)
  • 平均数:描述一组数据的集中程度(统计量描述)


 
二、什么是推断统计?

推断统计是研究如何利用样本数据来推断总体特征的统计方法。

统计推断原理:

比如,要对产品质量进行检测,也不可能对每个产品都进行检测,这就需要抽取样本,对个体进行测量,而后根据获得的结论对总体特征进行推断,这就是推断统计要解决的问题。

推断统计的推断,分为:参数估计、假设检验。

参数估计、假设检验,在统计流程中的推断位置:

 

三、参数估计

参数估计原理:利用样本信息估计总体特征,这50个产品都差不多,你看一个相当于看全部。

所以,提到参数估计,指的一定是对于总体指标的估计。

比如,样本均值估计总体均值。

比如,事先给定一容量的样本,已知样本均值,要求估计总体的均值。


 

四、假设检验

假设检验:利用样本信息判断对总体的假设是否成立,原理是小概率事件、反证法。

  • 原理1 - 小概率事件:

  • 原理2 - 反证法:反证法思想是,先提出某种假设(检验假设 H 0 H_{0} H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立。

在假设检验里,我们需要先对总体做一个假设,如果我们在对样本的研究中,有95%以上的把握证明原假设是假的,那么就可以否定原假设,在统计学里称为拒绝原假设。

 
五、参数估计和假设检验的联系

参数估计分为点估计和区间估计,其中区间估计可以理解为正向求解问题。

假设检验使用的是反证法,可以理解为逆向求解问题。

所以,他们俩者可以看作,同一个问题的不同表述方式,这是参数估计和假设检验之间的联系。

 
六、延伸

除了参数估计、假设检验外,还有相关与回归分析、方差分析:

具有相关关系的变量之间,如果存在因果关系,就用回归分析确定他们之间的关系。

如果这俩个变量之间不区分原因和结果,就属于平行关系,这时候确定俩个变量之间的关系,就称之为相关分析。

  • 相关和回归分析:比如,人的收入水平Y与受教育程度X之间的相关关系,就属于存在因果关系的相关关系。
  • 方差分析:方差分析也是研究变量之间关系的分析方法,具体来说ta是为了找出影响事物变化最显著的那个因素。

比如,影响学生成绩的因素有很多,包括环境、个性、是否注重学习等多个因素,可哪一个因素影响最大呢?方差分析就是解决这些问题的一种有效方法。

 


第三章:统计体系与基础概念

基础统计

高级统计


 


基础概念

概率和机会

概率描述了某件事情出现的可能性大小。例如,就是用概率值表示天气现象出现的可能性的大小,它所提供的,不是某种天气现象是否出现,而是某种气象出现的可能性有多大。

一、概率和机会是什么关系?

概率描述了某件事情发生的机会。比如,在天气预报中,会提到降水概率。

如果降水概率是 90%,那就很可能下雨,但如果是 10%,就不大可能下雨。

这种概率不可能超过 100%,也不可能少于 0%,换言之,概率是在 [0, 1] 之间的一个数,它说明了某件事情发生的机会有多少。

如果你对别人说,周末去公园的概率是80%,这时候,你无法精确说出,为什么是80%,而不是81%、79%。

其实你想说的是,你很想去,但不完全肯定,所以,概率无法精确推断,但是,有些概率是可以估计的。

比如,扔硬币的概率是 1 2 \frac{1}{2} 21

 

二、什么是条件概率?

一个家庭有俩孩子,请问都是女孩的概率是多少?

  • 1 2 ∗ 1 2 = 1 4 \frac{1}{2}*\frac{1}{2}=\frac{1}{4} 2121=41

一个家庭有俩孩子,知道一个是女孩,另一个也是女孩的概率?

  • 一个是女孩,就有 [女孩男孩]、[男孩女孩]、[女孩女孩],所以是 1 3 \frac{1}{3} 31

一个家庭有俩孩子,已知大孩子是女孩,问小的也是女孩的概率?

  • 1 2 \frac{1}{2} 21,只有俩种可能。

问题2、3的条件看上去很相似,但其实是不一样的。

同样是问这个家庭的俩个孩子都是女孩的概率,问题1因为没有告诉你更多额外的信息,因此答案是 1 4 \frac{1}{4} 41

但问题2和问题3却附加了一些信息或条件,因此概率就发生了变化而不再是 1 4 \frac{1}{4} 41

我们将这种在某种条件或信息下,对事件发生的可能性大小,称为条件概率。

 
三、相关事件和独立事件

如果几个事件互有影响,则为相关事件。

即一件事件发生与否,会影响另一件事件的发生的概率。比如,酒驾和车祸是相关事件。

如果几个事件互不影响,则为独立事件。

即无论其他事件发生与否,某个事件的发生概率总是保持不变。
 

四、互斥事件

互斥事件是指,事件A与事件B不可能同时发生,互斥事件意味着AB同时发生的概率为0,即 P ( A B ) = 0 P(AB)=0 P(AB)=0

比如,班长只有一个,选了小白,就不能选小黑。
 


变量和常量

变量和常量,都是统计学研究中的对象特征,在数量指标中:

  • 不变的数量的指标称为常量或常数
  • 可变的数量的指标称为变量

一、连续变量、离散变量

变量,按变量值是否连续,分为连续变量、离散变量。

离散变量,是指其数值只能用自然数或整数单位计算。比如,企业个数、职工人数等。

连续变量,是指一定区间内可以任意取值的变量,其数值是连续不断的。例如,身高、血压、体重等。


那区分连续变量、离散变量最简单的方法是什么?

  • 连续变量:是一直叠加上去的,是逐渐增加的,比如身高
  • 离散变量:是对所有统计的对象计数,增长量是非固定,不是逐渐增长,比如公司人数

 
二、定性变量、定量变量

变量按变量值是否能量化,分为定性变量与定量变量。

  • 定量变量:像人的体量,男女生的人数等,可以由数字量化的变量就称为定量变量。
  • 定性变量:像性别、观点之类的无法用数字来表示的变量,就称为定性变量。
     

数据的几种类型

一、数据按计量层次,分为数值型、分类型、顺序型。

  • 数值型:可以由具体的数值来计量,是对事物的精确测度,比如,收入xx元
  • 分类型:性别按男、女分类,药物反应按阴性、阳性,血型按O、A、B、AB分类
  • 顺序型:各类别之间有程度的差别,例如奖学金有一等、二等、三等奖励程度分类

不同类型的数据之间是可以相互转换的。

  • 数值型数据可以转为分类型数据。

    在变换时,少、中、多之间的分界线是多少,需要我们做判断。

  • 分类型数据转为数值型数据

    如此,变换星期可采用7列,变换月份可采用12列,这种数据转换的目的,是为了使分类数据尽可能的量化,以便进行更好的数据分析。
     

二、数据按时间状况,分为截面数据和时序数据。

  • 截面数据,是指在同一时间,由不同的统计单位,和相同统计指标组成的一组数据,例如股票数据。
  • 时序数据,是在不同时间点上收集到的数据,这类数据反映的是某一现象随时间的变化状态或程度。
     

易混淆的统计术语

一、绝对数、相对数

  • 绝对数:是反映客观现象总体,在一定时间、地点条件下的总规模、总水平的综合性指标。
  • 相对数:是指由俩个有联系的指标,对比计算而得到的数值。比如,7成。
     

二、频数和频率

  • 频数:是指一组数据中个别数据重复出现的次数。比如,某校A班学生共50名,按性别进行分组,分为男与女俩个组别,男同学的频数为30,女同学的频数为20。
  • 频率:是每个小组的频数与数据总和的比例,代表的是某组在总体中出现的频繁程度。比如,某校A班学生共50名,按性别进行分组,分为男与女俩个组别,男同学的频数为60%,女同学的频数为40%。

所以,频数是绝对数,频率是相对数。

 
三、百分比、百分点

  • 百分比:表示一个数是另一个数的百分之几,也称百分率或百分数,通常采用百分号(%)来表示,TA属于相对数。
  • 百分点:是指以百分数的形式表示的相对指标的变动幅度。一个百分点 = 1%。

 
四、比例、比率

  • 比例:是指在总体中,各部分数值占全部数值的比重,反映的是总体的构成和结构。比如A班有学生50人,男生25人,女生25人,则男生比例是 1 2 \frac{1}{2} 21
  • 比率:是不同类别数值的对比,反映的是一个整体中各部分之间的关系。比如A班有学生50人,男生25人,女生25人,则男、女比例是 1 : 1 1:1 1:1

 
五、倍数、番数

  • 倍数:是一个数除以另一个数所得的商
  • 番数:是指原来数量的2的N次方倍,比如翻一番 = 原来的2倍、翻俩番 = 原来的4倍
     

六、同比、环比

  • 同比:目的是为了与历史同时期进行比较,该指标主要反映的是事物发展的相对情况,比如2018年8月和2020年8月。
  • 环比:目的是为了与前一个统计时期,进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,比如2018年8月和2018年9月。
     

第四章:描述统计之图表描述

统计学上,从理论上讲,一切认识的对象都可以被量化。

而量化数据的方法则无外乎四种:

  • 定类尺度
  • 定序尺度
  • 定距尺度
  • 定比尺度

定类尺度:按照某种属性对事物进行平行的分类,如性别分成男、女,男编码为1,女编码为0。

  • 最大的特点:数据的类型没有顺序和大小区分,如男、女没有顺序的区分。所以,在所有的计量尺度中定类尺度是层次最低的一种。

定序尺度:不仅对事物区分成不同类型,还进行了排序,如把产品等级分成一等、二等、三等。

  • 最大的特点:不仅能量化数据,还能够测量不同类型的顺序,但这些类型具体差别多少不能测量,如一等优于二等,但优秀多少无法测量。

定距尺度:不仅对事物区分成不同类型,还进行了排序,而且还能准确指出类别之间的差距是多少,如把收入等级分成低收入1000-3000、中等收入3000-5000、高收入5000以上。

  • 最大的特点:可加减,不仅能比较各类事物的优劣,还能计算出事物之间具体差多少。

定比尺度:不仅对事物区分成不同类型,还进行了排序,而且可以测量不同变量之间的比例关系,如把一堆硬币分成俩堆,一堆6个,另一堆3个,比例关系。

  • 最大的特点:可加减乘除,不仅能比较各类事物的优劣,还能计算出事物之间具体比例关系。

针对这四类数据,如何进行图表描述?
 


定类数据的图表描述

通过一个案例来了解吧。

上图是5种饮料(可乐、雪碧、醒目、杏仁露、新骑士)购买频数(一组数据中个别数据重复出现的次数)。

每种饮料的购买频数都很高,对于这样一些零散的数据,该如何描述呢?

虽然个体数据是零散的,但只要对其进行分组和汇总整理,结果可用频数分布表来显示。


用饼图表示频率分布:

饼图更一目了然,哪种饮料购买频数最多,哪种饮料购买频数更少,但饼图组数不宜太多。


柱形图也能直观的看出,最高的可乐、最低的醒目。

用SPSS来实操一下:如何对定类数据做图表描述?

  1. 首先,在【变量视图】中定义变量的 10 个属性:


2. 在【数据视图】中输入基础数据:


因为对这5种赋了值,所以在输入数据时,直接输入对应的变量值就可以了。

原始数据共50个,在SPSS中输入这50个数据,如上图所示。

  1. 具体实操过程:


单击【分析】,依次选择【描述统计】-【频率】,弹出【频率】对话框。


在弹出的【频率】对话框中,将【饮料】这个变量进入变量对话框中,勾选【显示频率表格】,在结果中会自动出现【频率分布表】。


同时,单击右边的【图表】,选择需要图表描述的类型,勾选【条形图】,点击【继续】完成所有操作。

  1. 结果分析:

统计量的描述

频率分布表

条形图(如果在图表类型中,选择的是【饼图】,在这里显示的就是饼图)
 


定序数据的图表描述

通过一个案例来了解吧。

甲乙俩城市的家庭对住房情况的满意程度,共分成了五个类型:非常满意、满意、一般、不满意、非常不满意,这是一个典型的定序尺度的变量。

我们汇总基础数据,做成这样的【频数分布表】。


从表中的数据可以看出,无论是甲城市还是乙城市的家庭,对住房【不满意】的比例都是最高的。

同样,也可以把【频数分布表】转化为【饼图】:


也可以把【频数分布表】转化为【条形图】来表达这个定序数据,从条形图看出,甲乙俩城市的家庭,对住房情况【不满意】和【一般】的用户较多,处于俩极端的【非常满意】和【非常不满意】的用户较少。


从这俩个案例发现,定类尺度的数据描述和定序尺度的数据描述,都是用【频数分布表】、【饼图】和【条形图】这三种方式来表示,只不过定类数据的分类之间是平行关系,定序数据的各个分类之间进行了排序而已。

用SPSS来实操一下:如何对定序数据做图表描述?

甲乙俩个城市的满意度进行比较,看看哪个城市更被喜欢!

首先对甲城市进行描述。


从表中看出唯一的变量是【回答类别】,所以首先对【回答类别】这一变量进行定义。

  1. 首先,在【变量视图】中定义变量的10个属性

在这里插入图片描述
2. 在【数据视图】中输入基础数据


对五种满意度水平赋了值,输入数据时,直接输入对应的变量值即可。

  1. 具体实操:

    单击【分析】,依次选择【描述统计】-【频率】,弹出【频率】对话框。


在弹出的【频率】对话框中,将【回答类别】这个变量选入变量对话框中,勾选【显示频率表格】,在结果中会自动出现【频率分布表】。


同时,单击右边的【图表】,选择需要图表描述的类型,勾选【饼图】,稍后再选择【条形图】,点击【继续】完成所有操作。

  1. 结果分析

统计量的描述

频率分布表

饼图(如果在图表类型中选择的是【条形图】,在这里显示的就是【条形图】)

在软件自动计算的分析结果中,有统计量的描述,有频率分布表、饼图,如此就完成了甲城市的图表描述,乙城市同。
 


定距数据的图表描述

某地申请结婚的女性年龄。

您看年龄变量,不仅可以【排序】,也可以准确的指出不同年龄间的【差距】是多少,所以是一个【定距尺度】的变量。

我们将这组数据做成频数分布表:


除了频数分布表,我们可以用哪些图形来描述定距数据呢?

有四种图表可以描述定距数据,比如点线图是一种非常简单实用的方法。


点线图是用【一条直线】表示出变量年龄的取值范围,用【点的密集程度】表示每个年龄的频数,可以看出:

  • 该地区申请结婚的女性年龄,人数最多的在 23岁、25岁、29岁 这三个年龄段。

点线图这种表达方式,不仅简化了数据,而且没有任何信息损失,使用于变量取值较少时使用。

对于定距尺度的数据,还可以选择用茎叶图来描述。


茎叶图描述:

  • 茎:为十位数上的数字
  • 叶:为个位数上的数字

如第一行1、5、6、9都是【个位数】(叶),0是【十位数】,一共有4个数目,所以【频数】是4。

茎叶图既展示了分布形状又有原始数据,能够展示数据的全貌。

现在用茎叶图描述某地申请结婚的女性年龄数据:

是不是很明显呢!该地区申请结婚的女性年龄,人数最多的这23岁、25岁、29岁这3个年龄段。

茎叶图能在变量取值较多的情况下,很好的显示分布状况,同时又没有丢失信息。

除了点线图、茎叶图描述定距数据外,用直方图也可以清晰的描述定距数据的分布。

用直方图描述频率分布:

在这个案例中,将年龄等距划分后做成直方图,也可以直观的看出:申请结婚的女性集中在23岁到33岁。

  • 优点:适用于大量观测的情况,能很好的显示频数分布状况
  • 缺点:会丢失很多数据的细节

盒形图是第四种描述数据的方法。

盒形图有三个关键数据:【下四分位数】、【中位数】、【上四分位数】。

  • 下四分位数:该样本中所有数值由小到大排列后第 25% 的数字
  • 中位数:该样本中所有数值由小到大排列后第 50% 的数字
  • 上四分位数:该样本中所有数值由小到大排列后第 75% 的数字

盒形图把原始数据分成了四段,这四段中,每段的人数都是相同的,因为人数共37人,所以每段平均9个人左右。

只不过这9个人的年龄分布有的密集、有的分散。

比如上图,第三段是从27岁到31岁,年龄跨度最小但集中了9个人,所以我们说这段最为密集。

第四段这9个人的年龄分散在31岁到60岁之间,所以我们说第四段最为分散。

优点缺点
点线图简便,无信息损失如果变量取较多,效果不好
茎叶图变量取值较多,也不影响其显示效果如果观测数较大,显示效果不好
盒形图变量值较多,观测较多不影响显示效果,概括性好有信息损失
直方图变量值较多,观测较多不影响显示效果。概括性好,分布直观有信息损失,组数的确定带有一定的主观性

用SPSS对定距数据做图表描述。

  1. 在【变量视图】中定义变量的10个属性

P.S. 从第四项(小数)到第十项(角度),都是选择的系统默认的设置。

  1. 在【数据视图】中输入基础数据
  2. 实操

单击【分析】,依次选择【描述统计】- 【探索】,弹出【探索】对话框。


在弹出的【探索】对话框中,将【年龄】这个变量选入【因变量列表】中。

在最下面的输出列表框中勾选【图】,就会在结果中会只显示图表,如果选择【statistics】统计量,就会在结果中出现统计量的描述。


单击右边的【绘图】,在弹出的对话框中选择需要的图表,勾选【茎叶图】、【直方图】,同时,【箱图】也就是我们前面所说的【盒形图】,勾选【不分组】,点继续,完成所有操作。

  1. 结果分析


盒形图

茎叶图

在软件自动计算的分析结果中,从不同的角度对定距数据做出了描述。
 


多变量数据的图表描述

上面的图表适用于单个变量的描述,那对于俩个或以上的变量,有哪些图表可以描述呢?

一、散点图:适用于俩个变量的描述。

上图是30名学生的身高和体重数据,显然,这组数据有俩个变量,一个是【身高X】,一个是【体重Y】,所以,适用【散点图】来描述。


横轴代表【身高】,纵轴代表【体重】,图中的每个点代表一名学生,这样可以很直观的看出这30名学生【身高】集中在哪个位置,【体重】集中在哪个位置。

散点图可以直观的展示俩个变量之间的关系,而且没有丢失任何数字信息。

二、气泡图:适用于三个变量的描述。


气泡图适用于展示3个变量的分布。在这个案例中有3个变量,分别是单款库存深度、上新款数、总库存件数,服务行业的3个指标。

其中,【单款库存深度】就是指平均每款的库存件数,单款库存深度 * 上新款数 = 总库存件数。

气泡的大小正好代表总库存件数的大小,而且气泡越大,说明总库存越大。

三、雷达图:适用于三个以上变量的描述。


上图共有 8 个变量,针对这样的多变量数据,我们该如何展示?


可以看到这 8 个变量的分布组合在一起非常像雷达的形状,其中,蓝色线条代表的是【城镇居民】,红色线条代表的是【乡村居民】。

从图中可以直观的看出,城镇居民的消费支出主要集中在食品、娱乐教育和居住,乡村居民的消费支出也是集中在这3项,只不过他们的消费支出水平远低于城镇居民。

用SPSS来实操一下:如何对多变量数据做图表描述?


从表中可以看出俩个变量,分别是身高和体重,所以首先对变量进行定义。

  1. 首先,在【变量视图】中定义变量的 10 个属性


从第3项(宽度)到第10项(角色),选择系统默认的设置。

  1. 在【数据视图】中输入基础数据


3. 具体实操


单击【图形】,依次选择【旧对话框】-【散点】,弹出【散点图】对话框。


在弹出的【散点图】对话框中,我们选择最简单的形式:简单分布。

点击【定义】- 弹出【简单散点图】对话框。


在【简单散点图】对话框中,将【身高】和【体重】分别选入X轴和Y轴,点击【确定】完成所有操作。


这是最基本的形状,同时,我们还可以对散点图做参数修改,添加拟合线等,具体方法是双击这个散点图或选择编辑内容,会弹出一个图表编辑器的对话框。


在弹出的图表编辑器中,我们可以对散点图做出很多修改,包括添加拟合线等等。

对于三个以上对变量进行图表描述,我们用的是雷达图,雷达图在我们SPSS中无法实现,在SAS,R,或 Excel 里可以实现。

对于多变量数据:

  • 对2个变量进行描述,选择【散点图】
  • 对3个变量进行描述,选择【气泡图】
  • 对3个以上变量描述,选择【雷达图】
     

如何选择合适的图表

在可视化图表中,基于不同的目的,我们要选择不同的图表。

一般情况,我们需要借助图表达成4个目的:

  • 展示比较
  • 展示分布
  • 展示联系
  • 展示构成

一、展示比较

  • 基于分类的比较:横轴一般是各个分类
  • 基于时间的比较:横轴一般是各个时间点

首先来看,基于分类的比较。


默认情况下柱形图,柱体的宽度是相同的,但调成不等宽后柱形图的高度和宽度都有意义了。


每个项目有2个变量(营业额和增长率),适用于多个项目或主体在俩个维度上(营业额和增长率)比较数据,提供了一种展示数据的新的角度。


每个项目只有1个变量(客单价),适用于多个项目(各品牌)少数分类(线上线下)基于变量(客单价)的比较。


每个项目只有1个变量(件单价),适用于少数分类(线上线下)少数项目(各品牌),基于变量(件单价)的比较。

再看,基于时间的比较。


雷达图,适用于展示多个项目(各网站)的某个变量,基于某个周期(各月份)内的比较。


曲线图,适用于展示单个项目(奢侈品消费)的某个变量(市场份额),随着某个时间段(各年份)的变化。


柱形图,适用于展示少数项目(各品牌)的某个变量(门店数),基于少数周期(5月、6月)的比较。


曲线图,适用于展示 多个项目(各类目)的某个变量(市场份额),基于少数周期(各月份)的比较。

二、展示联系

  • 2个变量的联系
  • 3个变量的联系


散点图,适用于展示 某俩个变量(业务收入和广告支出)之间的联系。


气泡图,适用展示某三个变量(上新款数,单款库存深度,总库存件数)之间的联系。

三、展示分布

  • 1个变量的分布
  • 2个变量的分布
  • 3个变量的分布


直方图,适用于展示单个变量(学生分数)的少数,数据分布。


正态分布图,适用于展示单个变量(评分)的多个,数据点分布。


散点图,适用于展示某2个变量(顾客满意度和浏览时间)的数据点的分布。


曲面图,适用于展示某3个变量(X,Y,Z)的数据点的分布。

四、展示构成

  • 随时间变化的构成
  • 静态的构成


堆积百分比柱形图,适用于展示各个项目(各类目)随时间变化的百分比(销售占比)结构。


堆积百分比面积图,适用于展示各个项目(各类目)随时间变化的百分比(销售占比)结构。

堆积面积图,适用于展示各个项目(各类目)随时间变化的销售结构。

展示静态的构成


饼图,适用于展示各个项目(三明治销售额等)占总体(午餐销售额)的比例。


适用于直观的展示各个项目(各种费用和各种税务等)占总体(年收入)的构成。

复合堆积百分比柱形图,适用于展示某个项目构成(总销量)的构成(奶制品的销量)。
 


有效图表的的几个基本要素

第一,坐标轴必须标记。

现实生活中,很多人会通过操作纵坐标来欺骗读者,比如隐藏坐标轴就可以转移焦点,从而达到自己的目的。


在图表的玄机那里写过,操作坐标轴是常见的图表作弊手段,所以当你看到没有纵坐标轴的图表时,一定要提高警惕,防止被人欺骗。

第二、标题要提炼出重点,不要用模棱两可的标题。


像【公司销售额趋势变化】、【产品地域生产力分布】、【资产分配占比】、【雇员年龄分布】等这样没有结论的标题,读了也是云里雾里的。

此处我们用【5月销售额有大幅提升】,恰到好处,既符合主体,又不会太唐突。

标题是对整个图表的凝练,比如标题【土方机械在各地区都是最大的细分市场】,【在世界其他地区呈俩位数增长】,就是对整个图表内容的高度概括。

另外,给标题命名时,【下滑】俩个字需谨慎适用,比如【总体下滑】,上半年销售额持续下滑,这些标题还挺吓人的,经常用会影响士气哦。

比如上图虽然上半年整体销售是下滑的,但也不要轻易使用下滑,我们用的是5月销售额有大幅提升!

第三、备注数据来源,保证数据的可信度。

让我们先来看一份调查报告:

首先,结论中的数据没有备注数据来源。如果没有数据来源,我们不知道调查的样本,都选取了哪些用户,所以容易引起一些质疑。

第四、同比数据的解读非常重要。

业绩同比在我们经营分析中经常用到,但在实际工作中,经常被滥用,让我们通过一个案例来了解下。


如上图所示,西北区域同比增长 149.4%,一枝独秀,一片大好,一片掌声。

问题来了:

  • 今年同比去年增长高,是因为今年的销售太好,还是去年表现太差,导致了增幅过大?
  • 如果不是因为去年表现太差,那同比增幅大,是因为销售能力提升了,还是增加了营业网点?

第一、同比数据的对比,最好转化为每单位净增长数据,比如每个网点的平均增长比,单店比,同店同比,会更有意义。

第二、同比增长高,不一定是值得庆贺的,也可能是因为去年表现太差,导致同比增幅大,所以,对比的基数也很重要。比如,同比 = 2019 2020 \frac{2019}{2020} 20202019
 


增强图表达力的几种方法

在商业杂志中,经常需要根据图表的内容和目的,使用相关的图片来促进信息的沟通和理解。


比如,在这张杂志中就是用了麦穗、小人、瓶子等小图标来增强图表的表达力。

增强图表表达力,常见的做法有下面几种:

  • 改造饼图,一般使用图表所代表的具体事物填充饼图,提供图表的上下文背景。

用植物填充饼图,原图:

改造后:

用甜甜圈填充饼图,如图:

改造后:

用相机镜头填充饼图,原图:


改造后:

  • 改造柱形图或者条形图,经常用小汽车、小房子、小树、小人、银币等图片进行替换,最好使用透明的矢量图。

用【铅笔】替换柱形图:


用【温度计】替换柱形图:

用【不规则切面形状】替换柱形图:

用【三角形】替换柱形图:


用【电池形状】替换柱形图:

改造面积图,常见的有用钞票、黄金、油枪、国旗等,填充曲线图下的面积图。

  • 使用 Logo 等形象化图表对象,比如使用公司 Logo、国旗等来表示分类标签。

用【公司Logo】形象化条形图:


用【国旗】形象化条形图:

  • 用地图来加强图表,也是近年常见的地图图表形式。

用【世界地图】加强柱形图:

用【世界地图】加强百分比效果

  • 合理的图表修饰,同样是数据或图表,欧美人更喜欢活泼的感觉,商业是有趣的,我们不愿意生活在无型的框框里。

用【牙齿的形状】表达柱体效果:

利用【腿部线条】表达折线效果:

折线图修饰:

需要提醒的是,图表的装饰并不是多多益善,而是根据实际情况掌握。

避免非数据显示部分过多的装饰,影响和减弱数据本身的显示和读者对数据的理解。

  • 百分比有哪些展现形式

用【圆环】表示百分比


用【半圆环】形象的表示百分比


用【货车的载重】表达百分比效果


另外,在使用图片来加强图表时,需要注意以下几点。

  1. 所使用的图片要与图表的主题和意图有较好的相关性,寓意准确,恰当无歧义。
  2. 不用office自带的或者其他劣质的剪贴画,动手搜寻高质量的图片。
  3. 图表的色彩要与图片协调,可以从图片中提取颜色来做图表。
     

可视化图表的几个注意事项

饼图是一种非常简单的可视化工具,但他们却常常过于复杂,饼图的排序应该直观,而且最好不要超过5个细分。

有2种排序方法,可以让读者迅速抓取重要的信息。

方法一:将份额最大的那部分放在12点方向,逆时针放置第二大份额的部分,以此类推。


方法二:将最大部分放在12点,而后顺时针放置第二部分,以此类推。


数据的罗列要尽可能的符合逻辑,并以直观的方式引导读者阅读数据,对类目进行按字母、次数或数值大小进行排序。


确保数据不会因为设计而丢失或覆盖,例如,在面积图中使用透明效果,来确保用户可以看到全部数据。


例如,在面积图中使用透明效果,来确保用户可以看到全部数据。

在折线图中避免使用虚线,虚线会让人分心,如果用实线搭配合适的颜色更容易彼此区分。

图表尽量避免耗费读者过多的精力,我们可以通过添加辅助的图形元素,来使数据更易于理解,比如在散点图中增加趋势线。


确保图表的呈现要符合实际情况,确保任何呈现都是准确的,比如,气泡图的大小应该跟实际数值一样,不要随便标注。


在热图中尽力避免使用不同的颜色,如果一些颜色比其他颜色突出,反而赋予了数据不一样的意义,不如使用单一颜色,而后通过颜色的深浅来表达。


柱形图柱子之间的间距不要过宽或过窄,柱状过宽或过窄都会影响视觉传达,柱子与柱子之间的间隔最好调整为宽的 1 2 \frac{1}{2} 21


数据的对比要直观的呈现差异,对比是呈现差异的有效方式,但读者不易对比时,效果就大打折扣了,确保数据的呈现方式一致,可以让你的读者快速捕捉差异。


尽量避免使用三维图,尽管3D图看起来让人兴奋,但也容易分散预期和扰乱数据,坚持2D才是王道。

数据可视化是一个沟通复杂信息的强大武器,如果数据可视化做的较弱,反而会带来负面效果,错误的图表会损害数据的表达,完全曲解数据的本意。

所以,优秀的数据可视化依赖优秀的设计,并不是仅仅选择正确的图表模板那么简单,ta的实质在于,用一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。
 


第五章:描述统计之统计量描述

如何描述数据分布特征?

数据分布特征可以从集中趋势、离中趋势、偏态和峰态,三个角度进行描述。

在这里假设蓝色曲线是一条标准的正态分布曲线。

 


集中趋势:数据分布特征的描述

集中趋势,是指一组数据向某一中心值靠拢的程度,ta强调数据集中点的位置。

e.g. 年龄:66、60、71、54、54、62、54、51、51、65、59

比如对于上面这组数据,一眼看去,都在 50 以上,大概能够猜到:这组数据都是中老年人。

但具体如何,在数据量大但情况下,就需要有一些确切的指标,来表明其整体状态。

测定集中趋势的平均指标主要有:

  • 平均数
  • 中位数
  • 众数

一、平均数

平均数的特点:

  • 是集中趋势最常用的测量值
  • 是一组数据的均衡点所在
  • 平均数易受极端值影响
  • 平均数用于数值型数据,不能用于分类数据和顺序数据

平均数的分类:

  1. 简单平均数

平时我们说的均值指的是简单平均数(均值)。

简单平均数可以说是统计学上,最基本最简单的一个平均指标。


比如某次考试,小组A与小组B的成员成绩分别如下:

  • A:70、85、62、98、92
  • B:82、87、95、80、83

求平均值:

  • A:(70 + 85 + 62 + 98 + 92) / 5 = 81.4
  • B:(82 + 87 + 95 + 80 + 83) / 5 = 85.4

B组的均值比A组的高,我们就可以说:B组的总体成绩比A组高。

  1. 加权平均数

加权平均数,是每个数据乘以一个相应的权重,这个权重是介于 0 和 1 之间的一个系数,所有系数加起来等于 1。

比如考试成绩,甲乙俩组各有10名学生,他们的考试成绩及其分布数据如下:

甲组
考试成绩(X)020100
人数分布(f)118
乙组
考试成绩(X)020100
人数分布(f)811

x ‾ 甲 = ∑ i = 1 n x i n = 0 ∗ 1 + 20 ∗ 1 + 100 ∗ 8 10 = 82 \overline{x}_{甲} = \frac{\sum\limits_{i=1}^n x_{i}}{n} = \frac{0*1 + 20*1 + 100*8}{10}=82 x=ni=1nxi=1001+201+1008=82

x ‾ 乙 = ∑ i = 1 n x i n = 0 ∗ 8 + 20 ∗ 1 + 100 ∗ 1 10 = 12 \overline{x}_{乙} = \frac{\sum\limits_{i=1}^n x_{i}}{n} = \frac{0*8 + 20*1 + 100*1}{10}=12 x=ni=1nxi=1008+201+1001=12

  1. 几何平均数

定义:N个变量值相乘,再开N次方根,主要用于计算平均增长率,平均发展速度等。

计算公式: X = n X 1 ∗ X 2 ∗ X 3 ∗ ⋅ ⋅ ⋅ ∗ X n X=n\sqrt{X_{1}*X_{2}*X_{3}*···*X_{n}} X=nX1X2X3Xn

比如,一位投资者购持一种股票,在 2001、2001、2002 和 2003 年收益率分别为 4.5%、2.1%、25.5%、1.9%,计算该投资者在这四年内的平均收益率。

  • 几何平均: G ‾ = 4 104.5 % ∗ 102.1 % ∗ 125.5 % ∗ 101.9 % − 1 = 8.0787 % \overline{G}=4\sqrt{104.5\%*102.1\%*125.5\%*101.9\%}-1=8.0787\% G=4104.5%102.1%125.5%101.9% 1=8.0787%
  • 算术平均: G ‾ = ( 4.5 % + 2.1 % + 25.5 % + 1.9 % ) / 4 = 8.5 % \overline{G}=(4.5\%+2.1\%+25.5\%+1.9\%)/4=8.5\% G=(4.5%+2.1%+25.5%+1.9%)/4=8.5%

二、中位数

定义:排序后处于中间位置上的值。

中位数不受极端值的影响,主要是因为处于中间位置上的值,只和数据个数有关,和极端值具体是多少没有关系。

三、众数

众数:一组数据中出现次数最多的数据值。

平均数、中位数、众数三者的比较:


平均数、中位数、众数三者的分布:


 


离中趋势:数据分布特征的描述

为什么要描述离中趋势?

如果一只脚放在摄氏 1 度水里,另一只脚放在摄氏 79 度的水里,虽然平均水温是 40 度,但你会感觉舒服吗?

虽然平均水温是一个正常值,但因为俩个个体数据相差太大,平均值并不难反映整体状态,所以我们得出结论:

  • 只有了解数据的集中趋势还是不够的,还需要看数据的离散程度。


俩组数据的均值一样,也就是集中趋势一致,但俩组数据显然有很大区别,所以除了集中趋势,还需要有描述离散程度的统计量。

测定离中趋势的指标有:

  • 极差
  • 平均差
  • 方差
  • 标准差
  • 变异系数
  1. 极差:是一组数据的最大值与最小值之差,极差越大,离散程度越大,反之,离散程度越小。


俩组数据个数都是5个数,同样的均值,但 A 的极差 > B 的极差,我们就可以说,A 比 B 离散程度大。

极差的应用:比如比赛中去掉一个最高分和最低分,再求平均值的方法,就是极差的具体应用。

极差的不足

俩组数据极差虽然相等,都是 8,但离散程度并不完全相同,所以仅用极差来衡量离散程度并不严谨。

  1. 方差

在统计学上,更常用的是使用方差来描述数据的离散程度。

假设有一组数据分别为: X 1 、 X 2 、 X 3 、 X 4 、 ⋅ ⋅ ⋅ 、 X i X_{1}、X_{2}、X_{3}、X_{4}、···、X_{i} X1X2X3X4Xi

  • δ 2 = 1 N ∑ i = 1 n ( X i − μ ) 2 \delta^{2}=\frac{1}{N}\sum\limits_{i=1}^n (X_{i}-\mu)^{2} δ2=N1i=1n(Xiμ)2

其中, X i X_{i} Xi 表示数据集中第 i i i 个数据的值, u u u 表示数据集的均值。

从公式可以看出,方差的本质是:数据离中心越远越离散。

  • A:1、2、5、8、9
  • B:3、4、5、6、7

通过计算方差,用数据验证上述结论:

  • δ A 2 = 1 5 [ ( 1 − 5 ) 2 + ( 2 − 5 ) 2 + ( 5 − 5 ) 2 + ( 8 − 5 ) 2 + ( 9 − 5 ) 2 ] = 10 \delta^{2}_{A} = \frac{1}{5}[(1-5)^{2} + (2-5)^{2} + (5-5)^{2} + (8-5)^{2} + (9-5)^{2}]=10 δA2=51[(15)2+(25)2+(55)2+(85)2+(95)2]=10
  • δ B 2 = 1 5 [ ( 3 − 5 ) 2 + ( 4 − 5 ) 2 + ( 5 − 5 ) 2 + ( 6 − 5 ) 2 + ( 7 − 5 ) 2 ] = 2 \delta^{2}_{B} = \frac{1}{5}[(3-5)^{2} + (4-5)^{2} + (5-5)^{2} + (6-5)^{2} + (7-5)^{2}]=2 δB2=51[(35)2+(45)2+(55)2+(65)2+(75)2]=2

您看,用方差来衡量一组数据的离散程度比较合理。

P.S. 根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差。

  1. 标准差

δ = δ 2 \delta = \sqrt{ \delta^{2} } δ=δ2

标准差是方差的算术平方根,方差和标准差都是数据离散程度最常用的测度值。

有了方差为什么还要引入标准差?

如果均值的单位是 m m m,那么方差的单位计就是 m 2 m^{2} m2,直接用方差和均值进行比较无意义,而标准差和均值的量纲(单位)是一致的,在描述一个波动范围时,标准差比方差更方便。

比如一个班的男生的平均身高是170cm,标准差是10cm,那么方差就是 1 0 2 = 100 c m 10^{2}=100cm 102=100cm

用标准差可以简便的描述本班男生身高分布: 170 ± 10 c m 170\pm10cm 170±10cm,而方差就无法做到这点。

方差的计算公式:

  • 未分组数据: s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 s^{2}=\frac{\sum\limits_{i=1}^n (x_{i}-\overline{x})^{2} }{n-1} s2=n1i=1n(xix)2
  • 组距分组数据: s 2 = ∑ i = 1 k ( M i − x ‾ ) 2 f i n − 1 s^{2}=\frac{\sum\limits_{i=1}^k (M_{i}-\overline{x})^{2} f_{i}}{n-1} s2=n1i=1k(Mix)2fi

标准差的计算公式:

  • 未分组数据: s 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 s^{2}=\sqrt{\frac{\sum\limits_{i=1}^n (x_{i}-\overline{x})^{2} }{n-1}} s2=n1i=1n(xix)2
  • 组距分组数据: s 2 = ∑ i = 1 k ( M i − x ‾ ) 2 f i n − 1 s^{2}=\sqrt{\frac{\sum\limits_{i=1}^k (M_{i}-\overline{x})^{2} f_{i}}{n-1}} s2=n1i=1k(Mix)2fi

P.S. 样本方差用自由度n-1去除。

  1. 变异系数

变异系数是标准差与其对应的均值之比,用于对不同组别的数据,比较其离散程度。


当比较俩组数据离散程度时:

  • 如果他们的平均数相同,可以直接利用标准差来比较,标准差越大,离散程度越大。
  • 但如果平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(即变异系数)来比较。

比如,某管理局抽查了所属的 8 家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。

  • x 1 ‾ = 536.25 \overline{x_{1}}=536.25 x1=536.25(万元)

  • s 1 = 309.19 s_{1}=309.19 s1=309.19(万元)

  • v 1 = 309.19 536.25 = 0.577 v_{1}=\frac{309.19}{536.25}=0.577 v1=536.25309.19=0.577(万元)

  • x 2 ‾ = 32.5215 \overline{x_{2}}=32.5215 x2=32.5215(万元)

  • s 1 = 23.09 s_{1}=23.09 s1=23.09(万元)

  • v 1 = 23.09 32.5215 = 0.710 v_{1}=\frac{23.09}{32.5215}=0.710 v1=32.521523.09=0.710(万元)

计算结果表明, V 1 < V 2 V_{1}<V_{2} V1<V2

说明产品销售额的离散程度小雨销售利润的离散程度。

销售利润的分散程度更大,企业的利润不稳定。
 


偏态和峰态:数据分布特征的描述

数据在统计图中的形状,叫做数据的分布,偏态和峰态是衡量数据分布形态的2个指标。

  • 右偏分布:衡量偏移程度
  • 尖峰分布:衡量尖峭程度

其中,偏态反映数据分布不对称的方向和程度,峰态反映数据分布图形的尖峭程度或扁平程度。

  1. 偏态系数

偏态系数的特征:

  • 是数据分布偏移程度的测度
  • 偏态系数 = 0 时,对称分布
  • 偏态系数 > 0 时,为右偏分布
  • 偏态系数 < 0 时,为左偏分布


首先,观察电脑的销量分布表。P.S. 540000 是天数。

第二,从直方图上观察偏态。

分析出这组销量数据的分布属于右偏分布,峰态相对适中。

第三,计算偏态系数。

  • S K = ∑ i = 1 k ( M i − x ‾ ) 3 f i n s 3 = ∑ i = 1 10 ( M i − 185 ) 3 f i 120 ∗ ( 21.58 ) 3 = 540000 120 ∗ ( 21.58 ) 3 = 0.448 SK =\frac{\sum\limits_{i=1}^k(M_{i}-\overline{x})^{3}f_{i}}{ns^{3}}=\frac{\sum\limits_{i=1}^{10}(M_{i}-185)^{3}f_{i}}{120*(21.58)^{3}}=\frac{540000}{120*(21.58)^{3}}=0.448 SK=ns3i=1k(Mix)3fi=120(21.58)3i=110(Mi185)3fi=120(21.58)3540000=0.448

偏态系数为正值,但与 0 的差异不大,说明电脑销量为轻微右偏分布,即销售量较少的天数占据多数,销售量较多的天数占少数。

  1. 峰态系数

峰态系数的系数:

  • 是数据分布扁平程度的测度
  • 峰态系数 = 0 时,峰度适中
  • 峰态系数 > 0 时,为尖峰分布
  • 峰态系数 < 0 时,为偏平分布


第一,统计基础数据(电脑销量)。P.S. 120 为天数。


第二,从直方图上观察峰态。

第三,计算峰态系数。

  • K = ∑ i = 1 k ( M i − x ‾ ) 4 f i n s 4 − 3 = 70100000 120 ∗ ( 21.58 ) 4 − 3 = 2.694 − 3 = − 0.306 K=\frac{\sum\limits_{i=1}^k(M_{i}-\overline{x})^{4}f_{i}}{ns^{4}}-3=\frac{70100000}{120*(21.58)^{4}}-3=2.694-3=-0.306 K=ns4i=1k(Mix)4fi3=120(21.58)4701000003=2.6943=0.306

峰态系数K为负值,但与 0 的差异不大,说明电脑销量为轻微扁平分布,即电脑的销量相对均衡。
 


数据标准化的几种方法

数据标准化,或许也是数据指数化。

数据在处理之前为什么要进行标准化呢?

比如说,我们想要评价一款产品是否为爆款,就需要用到流量、转化率、售罄率、毛利额等,多个指标综合进行评价。

  • 综合指标 = 40%*流量 + 30% * 转化 + 15% * 毛利额 + 15% * 售罄

但这些指标的单位和性质各不相同,直接如此进行加权平均貌似不合理。

这时候我们就可以将数据标准后再进行加权平均。

所以,数据标准化的意义就在于 — 能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权。

举个例子,比如第 1 个变量的单位是 kg,第 2 个变量的单位是 cm,这俩个变量之间的比较和加权,就需要将指标的观察值进行加和。

使用者就会质疑 5kg 的差异,怎么可以与 3cm 的差异相加?

所以,他们之间需要进行标准化处理。

  1. 0-1 标准化

对原始数据进行线性变换,使结果落到 [ 0 ,   1 ] [0,~1] [0, 1] 区间

我们使用转换函数: X = ( x − m i n ) ( m a x − m i n ) X =\frac{(x-min)}{(max-min)} X=(maxmin)(xmin),其中 max 为样本数据的最大值,min 为样本数的最小值。

例如,一组原始数据: 80 ,   29 ,   10 ,   38 ,   56 80, ~29, ~10,~38,~56 80, 29, 10, 38, 56,标准化处理后: 1.0 ,   0.3 ,   0 ,   0.4 ,   0.7 1.0,~0.3,~0,~0.4,~0.7 1.0, 0.3, 0, 0.4, 0.7

P.S. 需要注意一个地方,当有新数据加入时,可能导致 max 和 min 的变化,需要重新定义。

也可不使用转换函数,最简单的,莫过于除以 1 0 n 10^{n} 10n 倍,直接将数据同时除以 100 倍、1000 倍或 10000 倍。如下图:


将数据同时缩小 10000 倍,进行标准化处理,便于指标之间进行比较和加权。

  1. Z-score 标准化,也叫标准差标准化

原数据 X 经过处理的数据 X*,符合标准正态分布,即均值为 0,标准差为 1。

那 X 是如何转换为 X* 的呢 ?

我们使用转换函数: X ∗ = x − μ σ X^{*}=\frac{x-\mu}{\sigma} X=σxμ μ \mu μ 是所有样本数据的均值, σ \sigma σ 是所有样本数据的标准差。

例如,一组原始数据: 1 ,   2 ,   3 ,   4 ,   5 ,   6 ,   7 1,~2,~3,~4,~5,~6,~7 1, 2, 3, 4, 5, 6, 7,标准化处理后: − 1.5 ,   − 1 ,   − 0.5 ,   0 ,   0.5 ,   1 ,   1.5 -1.5,~-1,~-0.5,~0,~0.5,~1,~1.5 1.5, 1, 0.5, 0, 0.5, 1, 1.5

可以看到,标准化之后的数据符合标准正态分布即均值为 0,标准差为 1。
 


第六章:抽样

 


数据的收集和整理

全面调查和抽样调查,是数据收集过程中,常用的 2 种方法。

全面调查,就是对调查对象逐个排查。

  • 优点:得到的数据全面,可靠
  • 缺点:耗费人力、物力、财力,调查时间长

那么,全面调查这种方式,适用于哪些情况呢?

一般情况下,遵循下面几个原则:

  • 范围较小
  • 容易掌控
  • 不具有破坏性
  • 可操作性强

假设要了解本校篮球队 12 名队员的身高情况 — 因为只有 12 名队员,符合【范围较小】的原则,而且是精确度要求高的调查,所以适合全面调查。

假设要了解一批灯泡的使用寿命 — 如果全面调查,所有灯泡都有可能报废,全面调查具有强破坏性,这样就失去了实际意义,所以适合抽样调查。

抽样调查:从总体中,抽取若干个(即样本)继续调查。

  • 优点:耗费人力少,俭省时间
  • 缺点:需要有足够代表性的样本,具有不稳定性,容易有所偏差

抽样调查,记住俩个原则:

  • 范围广
  • 工作量大

要了解外地游客对【文化美食节】的满意度 — 全面调查工作量大,适合抽样调查。

调查长江流域的水污染情况 — 因为范围广,不适合全面调查,只能采用抽样调查。

总体、个体、样本。

  • 总体:在统计学里,我们把所要考察的对象的全体,称为总体。
  • 个体:其中每个考察对象,称为个体。
  • 样本:研究中实际观测,或需要抽样调查出来的那一部分个体,称为样本。
  • 样本容量:样本中包含的个体的数量。

比如,为了调查学校毕业生的健康状况,从 100 名毕业生中,抽取了 8 名学生进行体验。

-【总体】:100 名毕业生
-【个体】:每一名毕业生
-【样本】:抽取的 8 名学生
-【样本容量】:8

什么是随机样本?

【简单随机抽样】,在抽取样本时,如果总体中的每一个体,都有同等机会被选到样本中,这种随机抽样称为简单随机抽样。

这样得到的样本,就称为随机样本。

总体和样本的关系是什么?

如果总体是一份八宝粥,随机样本则是充分搅拌后,八宝粥中的任意一勺,且搅拌越充分,样本的代表性越好。

选取样本的注意事项?

样本的选取直接影响分析结果,一般情况下样本容易出现以下问题:

  • 抽取的样本量过少:数据抽取的样本量越大,抽样误差越小,尤其是在样本分布不均匀时,样本量过少会导致结果的可信度更低。
  • 选取的样本平均:假设要统计某手机市场占有率,城市用户的市场占有率肯定优于农村用户。选取样本量时,针对农村用户和城市用户要选择合适的抽样方法,以保持样本主体均匀。
  • 样本抽取的客观环境不一样:分析某个品牌手机的用户体验,假设选取的客户正在一辆拥挤的、嘈杂的公交车上使用手机,这时候调查用户的体验,就会影响该用户对手机的真实评价。
     

收集数据是的误差

什么是抽样误差?

一勺八宝粥中的成分比例,和整碗不一定相同,可能稍微多些或者稍微少些。

这是很正常的,这种差异不是错误,而是必然出现的抽样误差。

什么是未响应误差?

  • 抽样调查中,人们因为种种原因没有对调查做出翻译,这种误差称为未响应误差。

什么是响应误差?

  • 抽样调查中,一些人因为各种原因并没有真实反映他们的观点,称为响应误差。

结论,抽样误差是由于抽样方法所导致的系统误差,在抽样中不可避免。

和抽样误差不一样,响应误差和未响应误差是由于主观因素导致的,他们都会影响对真实世界的了解。
 


常用的抽样方法

我们知道,随机样本指的是每个个体,都以同等的概率被抽到。

在抽样调查时,最理想的样本是随机样本,但随机样本有时候不是那么容易获取。

样本的选取直接影响分析结果,常用的抽样方法有以下四种:

  • 随机抽样
  • 分层抽样
  • 整群抽样
  • 系统抽样

什么是随机抽样?

  • 将调查总体的观察个体全部编号,再随机抽取部分观察个体、组成样本,如将锅里的汤搅拌均匀,品尝一小勺就可以代表整锅汤的味道。

随机抽样有哪些特点?

  • 优点:由于总体中每个单位都有同等机会被抽中,所以在样本推论总体时,可用概率的方式客观的判断估计值的可靠程度。
  • 缺点:总体较大时,难以一一编号。

什么是分层抽样?

  • 先把要研究的总体,按照某些性质分类,再在各类中分别抽取样本。

    比如,按教育程度把感兴趣的人群分成几类(研究生、本科生),再在每一类中调查和该类成比例数目的人,以确保每一类都有相应比例的代表。

分层抽样有哪些特点?

  • 优点:样本代表性好,抽样误差减少
  • 缺点:抽样过程繁杂

什么是整群抽样?

  • 先把总体分成若干群,再从这些群中抽取几群,而后再在这些抽取的群中对个体,进行简单随机抽样。

比如,在某县进行调查,首先在所有村中选取若干村子,而后只对这些选中的村子的人进行调查。如果各村情况差异不大,这样抽样还是方便的。

整群抽样有哪些特点?

  • 优点:便于组织、节省经费
  • 缺点:抽样误差大于单纯随机抽样

什么是系统抽样?

  • 先把总体中的每个单元编号,而后随机选取其中之一,作为抽样的开始点进行抽样。如在选取开始点之后,通常从开始点开始按照编号,进行所谓等距抽样。

系统抽样有哪些特点?

  • 优点:易于理解,简便易行
  • 缺点:总体有周期或增减趋势时,易产生偏差
     

设计调查问卷的原则

在采取抽样的方式,确定了调查样本之后,往往需要通过问卷调查完成对样本数据的收集。

在发放问卷调查之前,我们需要对问卷进行设计,而问卷设计的好坏很大程度上,和设计原则有关。

问卷设计原则主要分为六点:

  • 合理性:问卷必须紧密与调查主题相关
  • 逻辑性:不同范畴的问题应该分开进行调查,如【品质纯正】和【价格优惠】应该作为俩个问题分别提问
  • 明确性:比如婚姻状况,不止有已婚、未婚,还有离婚、丧偶
  • 全面性:比如婚姻状况,不止有已婚、未婚,还有离婚、丧偶、分居等
  • 非诱导:提问不能给回答者以暗示,否则容易诱导别人做出不真实的回答
     

第七章:推断统计之参数估计

 


概率和概率分布

在自然界中有俩种现象:确定现象、不确定现象(随机现象)。

  • 确定性现象:在一定条件下必然发生的现象。如太阳从东方升起。

  • 不确定性现象(随机现象):有多种可能的结果发生,但事先并不能 100% 肯定发生哪一种结果。如抛硬币正面、反面都可能。

随机现象可能发生的结果,称为【随机事件】。

随机现象可以通过【随机试验】来研究。

具有以下三个特征的试验,都可以称为【随机试验】:

  • 可以在相同条件下重复进行
  • 每次试验的结果不止一个,但在一次试验中有且只有一个结果出现
  • 试验之前不能确定哪个结果会出现

如抛硬币、从一批灯泡中任取一支,检测寿命。

随机变量,作一次随机试验结果有很多可能性。

  • 每一种可能的结果都可以用一个数表示 ( X 1 、 X 2 、 X 3 、 X 4 、 ⋅ ⋅ ⋅ ) (X_{1}、X_{2}、X_{3}、X_{4}、···) (X1X2X3X4)

把这些数作为变量 X 的取值范围,则试验结果可用变量 X ( X 1 、 X 2 、 X 3 、 X 4 、 ⋅ ⋅ ⋅ ) X(X_{1}、X_{2}、X_{3}、X_{4}、···) X(X1X2X3X4) 来表示。如扔骰子,将一颗骰子用 X 记录可能出现的点数 X = [ 1 、 2 、 3 、 4 、 5 、 6 ] X=[1、2、3、4、5、6] X=[123456],点数 X 就是随机变量。

随机试验的偶然性和规律性:

  • 一次试验具有偶然性,如硬币哪面朝上本来是偶然的,可能正面可能反面。
  • 大规模试验具有规律性,随着抛硬币的次数越来越多,正面朝上的概率明显地向 50% 靠近。

其实,计算机模拟的结果也是这样:

  • 抛 10 枚硬币,正面朝上的比例范围是 30%~90%;
  • 抛 100 枚,比例范围就缩小了,变为了 40%~60%;
  • 抛 1000 枚,比例范围就缩小到 46.2%~53.7%。

诶,越来越接近 50%,那是不是有一种神秘力量,让结果不断逼近50%呢?

这说明偶然中包含着某种必然和规律。

我们的概率和概率分布,就是为了研究这种大量重复试验下产生的规律。

概率的定义:概率是一个数量指标,用来刻画随机事件发生的可能性大小,如事件 A 的概率记为 P ( A ) P(A) P(A)

概率表示的是 N 次大量重复试验的最终结果,比如抛硬币正面朝上的概率是 50%,这是抛硬币次数足够多的情况下,得到的最终规律。

但如果想要全面了解试验,比如想要了解 N 次抛硬币的整个过程,则必须知道试验的每一次可能的结果及各种可能结果发生的概率,也就是必须知道随机试验的概率分布情况。

概率分布我们一般用图形表示(如上图),其中 X 轴代表随机变量 X 的每一个取值,Y 轴代表每个取值发生的概率。

通过绘制概率分布图,我们可以知道每一次随机试验的结果。
 


点估计和区间估计

参数和统计量:

参数指的是反映总体数量特征的指标,总体参数包括:总体均值、总体方差、总体标准差等 — 研究者想要了解总体的某种特征值,所以一提到参数,一定是对总体指标的描述。

统计量则是针对样本数据的描述,常见的统计量包括:样本均值、样本方差、样本标准差、样本比例等 — 所以,一提到统计量,一定是对样本数据的描述。

点估计和区间估计是,参数估计常见的俩种推断方法。

什么是点估计

某糖果公司生产一种口香糖,口香糖的口味持续时间越长,说明越长效。

为了判断总体口香糖的口味持续时间,我们首先需要对样本进行检验。


经过检验,已知样本均值是 60 秒,总体均值和样本均值大致相同,估计总体均值也是 60 秒。

这时候,样本均值被称为总体均值的【点估计量】。

这里估算的是一个具体的数值,所以我们称为【点估计】。

点估计值仅仅是总体均值的一个近似值,TA 没有反映出这个近似值的误差范围,使用起来把握不大。

什么是区间估计

区间估计不要求给出总体均值的精确估计,而是指出总体均值介于某个区间之内。

我们用 ( a ,   b ) (a,~b) (a, b) 表示这个区间,这种方法称之为 【区间估计】。

区间估计给出了总体均值介于哪个区间范围之内,我们用 ( a ,   b ) (a,~b) (a, b) 表示这个区间,因此, ( a ,   b ) (a,~b) (a, b) 被称为 【置信区间】。

我们用 ( a ,   b ) (a,~b) (a, b) 表示参数估计的区间,希望这个区间能包含总体均值,当然如果区间设置的太太,就没有实际意义了。

用窄的置信区间比宽的置信区间,能提供更多总体参数的信息。

假设我们想了解全班所有同学考试的平均分,我们用样本的平均分来估计总体(已知样本均值为 65 分),虽然没能估计出总体均值具体是多少,但通过区间估计给出了以下估计区间:


根据第三个区间 60 − 70 60-70 6070,基本可以判断总体均值为 65 65 65 分。

区间估计时,置信区间设置的越窄,越能提供更多总体参数的信息。


对于区间估计来说,我们希望确定一个区间,使我们能以比较高的可靠程度,相信它包含真实参数值。

置信水平假设用来描述这种可靠程度的,它指的是变量落在置信区间内的可能性大小。比如

口香糖公司在 95% 的置信水平下,求得的口香糖口味持续时间的置信区间为 ( 61.6 ,   63.5 ) (61.6,~63.5) (61.6, 63.5)

  • 意思是,公司总体口香糖的口味持续时间平均值在 61.6 到 63.5 秒之间,这一说法的可信程度是 95%。

在一次大选中某人的支持率为 55%,而置信水平 95% 以上的置信区间是 ( 0.5 ,   0.6 ) (0.5,~0.6) (0.5, 0.6)

  • 意思是,TA的真实支持率有 95% 的机率,落在 50% 和 60% 之间。

置信度一般选定 95%,而后再选择 a 和 b,使得这块面积的概率是 95%。

【置信水平】是总体参数落在置信区间内的可能性大小,而【显著性水平】指的是总体参数落在置信区间外的可能性大小。


显然,置信水平 + 显著性水平 = 1。


一般情况下,【显著性水平】我们用 α \alpha α 来表示,因此【置信水平】就用 ( 1 − α ) (1-\alpha) (1α) 表示。
 


总体参数的估计

常用的样本统计量有:

  • 样本均值:估计总体均值
  • 样本方差:估计总体方差
  • 样本比例:估计总体比例

首先,我们来看如何用样本均值估计总体均值。

案例:公司生产口香糖,经理说我们的口香糖久到离谱,要求出口香糖口味持续时间(的总体均值和方差)。

因为只有总体口味持续时间长,才能宣布公司的口香糖比别家嚼的久。

  1. 首先通过抽样 — 得到无偏样本 — 而后绘制样本和总体的分布图

    可以看出:样本分布形状和总体分布形状及其相似。

所以,我们决定用样本均值来作为总体均值,也就是只要我们求出样本口香糖的口味持续时间均值就可以了。

  1. 根据采集到的样本数据,计算样本均值

样本采集的数据(口香糖的口味持续时间): 61.9   62.6   63.3   64.8   65.1   66.4   67.1   67.2   68.7   69.9 61.9~62.6~63.3~64.8~65.1~66.4~67.1~67.2~68.7~69.9 61.9 62.6 63.3 64.8 65.1 66.4 67.1 67.2 68.7 69.9

x ‾ = 61.9 + 62.6 + 63.3 + 64.8 + 65.1 + 66.4 + 67.1 + 67.2 + 68.7 + 69.9 10 \overline{x}=\frac{61.9+62.6+63.3+64.8+65.1+66.4+67.1+67.2+68.7+69.9}{10} x=1061.9+62.6+63.3+64.8+65.1+66.4+67.1+67.2+68.7+69.9

= 657 10 =\frac{657}{10} =10657

= 65.7 =65.7 =65.7

求出样本均值 = 65.7 = 65.7 =65.7,也就是说样本中的口香糖口味持续时间能保持 65.7 65.7 65.7 秒。

  1. 用样本均值估计总体均值

    样本均值是我们能为总体均值做出的最好估计,是最接近的猜测。

结论:预估公司总体口香糖的口味持续时间也是 65.7 65.7 65.7 秒。

在上面案例中出现了 3 3 3 个概念:

  • 总体均值
  • 样本均值
  • 点估计量

对于总体均值,有 2 个,一个是真实的总体均值 μ \mu μ,另一个是预估的总体均值 μ ^ \hat{\mu} μ^,当我们无法得到确切的真实的总体均值时,就只能用预估的总体均值(候补)。

样本均值: x ‾ = ∑ x n , 将 样 本 中 的 数 字 相 加 , 而 后 除 以 这 些 数 字 的 总 数 , 就 是 样 本 均 值 \overline{x}=\frac{\sum x}{n},将样本中的数字相加,而后除以这些数字的总数,就是样本均值 x=nx

点估计量: μ ^ = x ‾ \hat{\mu}=\overline{x} μ^=x,样本均值就是总体均值的点估计量。


参数估计:样本方差估计总体方差。

我们已经得到了总体均值的良好估计,那么方差呢?

只要我们得出总体方差的良好估计,就能判断总体均值有可能出现多大的变异?

样本方差 = 总体方差,我们是否可以用【样本方差】估计【总体方差】呢?

也就是需要判断:样本的变异程度,能否代表总体的变异程度。

方差是所有数值偏离均值的程度,样本数量肯定小于总体数量,所以极端值出现在样本中的可能性就会下降。

极端值是最容易影响总体方差的因素,所以,样本方差会小于总体方差。

而且样本量越少,差距越大,样本量越大,这种差距越小。

案例:班上共 60 人,每个人成绩有高有低,随机抽取 10 人,比较这 10 人的成绩差异,这是【样本方差】。如果要比较全班 60 人的成绩差异,这是【总体方差】。

进一步验证:样本方差是小于总体方差的。

既然不能使用样本方差,那我们用其他方式来估计总体方差:

  • σ ^ 2 = ∑ ( x − x ‾ ) 2 n − 1 \hat{\sigma}^{2}=\frac{\sum(x-\overline{x})^{2}}{n-1} σ^2=n1(xx)2
  • 总 体 方 差 估 计 量 = 用 样 本 中 的 每 个 数 值 减 去 样 本 均 值 , 所 得 之 差 取 平 方 数 , 而 后 将 所 有 平 方 值 相 加 样 本 容 量 n 减 一 总体方差估计量=\frac{用样本中的每个数值减去样本均值,所得之差取平方数,而后将所有平方值相加}{样本容量n减一} =n

这和样本方差的公式相似,不过除数是 n − 1 n-1 n1,而不是 n n n


这样估计得出的值要比样本方差略大,而总体方差本身就大于样本方差,所以左边公式作为总体方差的点估计量,效果更好。

样本比例估计总体比例。我们已经用样本口香糖的口味持续时间推断出了,总体口香糖的口味持续时间的均值和方差,这次,公司还想了解:

  • 公司口香糖是否比对手公司更受欢迎?

  • 样 本 比 例 ( 样 本 成 功 比 例 ) = 样 本 人 群 中 偏 爱 公 司 口 香 糖 的 人 数 样 本 人 数 样本比例(样本成功比例) = \frac{样本人群中偏爱公司口香糖的人数}{样本人数} =

  • 总 体 比 例 ( 总 体 成 功 比 例 ) = 总 体 人 群 中 偏 爱 公 司 口 香 糖 的 人 数 总 体 人 数 总体比例(总体成功比例)= \frac{总体人群中偏爱公司口香糖的人数}{总体人数} =


总体均值类似,我们是将样本比例,作为总体成功比例的点估计量。

最终求出样本成功比例 = 0.8 = 0.8 =0.8

结论:公司总体人群中偏爱口香糖的人群占 80% 左右,另外,有 20% 的人更偏爱竞争对手口香糖。

 


三大抽样分布

样本分布是单个样本中各个观察值的分布,当样本容量逐渐增大时,样本分布会逐渐接近总体分布。

在处理具体的理论与应用问题时,我们很少直接利用一个样本,而是从总体中选出所有可能的样本,计算每一个样本均值或样本均差,不同的样本可以反映总体的不同特征,样本统计量的概率分布,我们称之为抽样分布。

那我们为什么要研究抽样分布呢,为什么不直接用单个样本来推断总体呢?


每一个样本中都包含了有关总体的某一部分信息,但这些信息是零散的,我们取得样本之后,并不是直接利用样本进行推断,而是需要对样本进行一番【加工】和【提炼】,把样本中所包含的信息尽可能的集中起来,这样才能更好的推断总体。

那么,总体分布、样本分布、抽样分布三者有哪些区别呢?

  • 总体分布:所有人的身高构成了一个总体 — 总体分布往往是未知的,很多场合不可能获得对所有元素的观察值;
  • 样本分布:从所有学生中随机抽取 300 个人,这 300 个人就组成了一个【样本分布】— 因为抽样是随机的,一个样本无法代表总体,所以我们再随机抽取若干个样本,样本容量仍然是 300,这样我们可以得到很多个样本容量是 300 的样本。对于每一个样本,都可以计算出一个样本均值,而且不同的样本得到的样本均值是不一样的,由此得到样本均值的一个概率分布;
  • 抽样分布:从一个总体中可以随机抽出容量相同的各种样本,从这些样本中可以计算出某个统计量所有可能值的概率分布;几个常用的抽样分布:卡方分布、T分布、F分布、正态分布。

这三大基础分布与正态分布一同构成了数理统计中的四大分布。

在统计研究中,我们总是以正态总体作为研究对象,既然正态分布这么重要,我们有必要来了解下它的特点,尤其是图形特点。

图形特点:

  • 曲线关于 X = u X = u X=u 对称,也就是正态分布以均值为中心,左右对称
  • X = u X = u X=u 处概率密度函数取得最大值
  • 俩头小,中间大,左右对称

正态分布的图形由 TA 的俩个参数唯一确定:

  • 均值 u u u
  • 标准差 σ \sigma σ


均值 u u u 决定了图形的中心位置,当标准差 σ \sigma σ 恒定的时候, u u u 越大,曲线越向右移动。


标准差 σ \sigma σ 决定了图形峰的陡峭程度,标准差越大,说明数据的离散程度越大,数据越分散,曲线就会越扁平。


上图是标准正态分布,当均值 μ = 0 \mu = 0 μ=0,方差 σ 2 = 1 \sigma^{2}=1 σ2=1 时, X X X 服从标准正态分布,记 X − N ( 0 , 1 ) X-N(0,1) XN(0,1)

标准正态分布的概率密度函数用 φ ( x ) \varphi(x) φ(x) 表示,其分布函数用 F ( x ) F(x) F(x) 表示。

对于分布函数 F ( x ) F(x) F(x),有 F ( − x ) = 1 − F ( x ) F(-x)=1-F(x) F(x)=1F(x)。如当 x 服从均值为 0,标准差为 1 的标准正态分布时,则有: P { x < − 2 } = 1 − P { x < 2 } P\{x<-2\}=1-P\{x<2\} P{x<2}=1P{x<2}

正态分布可以查表,得到概率 P 值:


算例:若 X − N ( 0 , 1 ) X-N(0,1) XN(0,1),则 P { X < 0.55 } = 0.7088 P\{X<0.55\}=0.7088 P{X<0.55}=0.7088

行列的交叉点 0.7088 0.7088 0.7088,就是我们要的概率值。

算例:若 X − N ( 0 , 1 ) X-N(0,1) XN(0,1),则 P { X < − 0.98 } = 1 − P { X < 0.98 } = 1 − 0.8365 = 0.1635 P\{X<-0.98\}=1-P\{X<0.98\}=1-0.8365=0.1635 P{X<0.98}=1P{X<0.98}=10.8365=0.1635

首先转化为 1 − P { X < 0.98 } 1-P\{X<0.98\} 1P{X<0.98},纵向找到 X = 0.9 X=0.9 X=0.9,横向找到 X = 0.08 X=0.08 X=0.08,行列的交叉点 0.8365 0.8365 0.8365 就是我们要找的概率值。

算例:若 X − N ( 0 , 1 ) X-N(0,1) XN(0,1),则 P { X > 0.4 } = 1 − P { X < = 0.4 } = 1 − 0.6554 = 0.3446 P\{X>0.4\}=1-P\{X<=0.4\}=1-0.6554=0.3446 P{X>0.4}=1P{X<=0.4}=10.6554=0.3446

首先转化为 1 − P { X < 0.4 } 1-P\{X<0.4\} 1P{X<0.4},而后用同样的方法查找概率值。

在我们对一组符合正态分布的数据进行描述时,会有很多的经验供参考:


当随机变量的所有数据对称分布时:

  • 约有 68% 的数据在平均数加减 1 个标准差的范围之内
  • 约有 95% 的数据在平均数加减 2 个标准差的范围之内
  • 约有 99% 的数据在平均数加减 3 个标准差的范围之内

对于标准正态分布函数,我们可以通过查表求出,那么如果是一个一般的正态分布函数,如何求出它的概率值呢?

没关系,任意一个正态分布函数,我们都可以转化为标准正态分布。

X − N ( μ , σ 2 ) X-N(\mu, \sigma^2) XN(μ,σ2),则 Z = X − μ σ − N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}-N(0,1) Z=σXμN(0,1)

X − N ( 1 , 4 ) X-N(1,4) XN(1,4),则 P { X ≤ 1.6 } = Φ ( 1.6 − 1 2 ) = Φ ( 0.3 ) = 0.6179 P\{X\leq1.6\}=\Phi(\frac{1.6-1}{2})=\Phi(0.3)=0.6179 P{X1.6}=Φ(21.61)=Φ(0.3)=0.6179

例如,设某地区男子身高 X − N ( 169.7 , 4.1 2 ) X-N(169.7,{4.1}^{2}) XN(169.7,4.12),从该地区随机找一男子测身高,求:他的身高 > 175cm 的概率?

P ( X > 175 ) = 1 − P ( X ≤ 175 ) = 1 − Φ ( 175 − 169.7 4.1 ) = 1 − Φ ( 1.293 ) = 1 − 0.9015 = 0.0985 P(X>175)=1-P(X\leq175)=1-\Phi(\frac{175-169.7}{4.1})=1-\Phi(1.293)=1-0.9015=0.0985 P(X>175)=1P(X175)=1Φ(4.1175169.7)=1Φ(1.293)=10.9015=0.0985

结论:该地区男子的身高大于 175cm 的概率为 9.85%,是一个很低的概率,换句话说,该地区大部分男子的身高低于 175cm。


X 1 、 X 2 、 ⋅ ⋅ ⋅ 、 X n X_{1}、X_{2}、···、X_{n} X1X2Xn 相互独立,都服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),则称随机变量 X 2 = X 1 2 + X 2 2 + ⋅ ⋅ ⋅ + X n 2 X^{2}=X_{1}^{2}+X_{2}^{2}+···+X_{n}^{2} X2=X12+X22++Xn2 所服从的分布,为自由度为 n 的 X 2 X^{2} X2 分布。

P.S. 参数 n 称为自由度,样本中独立或能自由变化的自变量的个数。


卡方分布( X 2 X^{2} X2 分布),常用于假设检验和置信区间的计算。

T 分布:设 X 1 X_{1} X1 服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1) X 2 X_{2} X2 服从自由度为 n 的 X 2 X^{2} X2,且 X 1 、 X 2 X_{1}、X_{2} X1X2 相互独立,则称变量 t = X 1 ( X 2 n ) 1 2 t=\frac{X_{1}}{(\frac{X_{2}}{n})^{\frac{1}{2}}} t=(nX2)21X1 所服从的分布为自由度为 n 的 t 分布。

  • T 分布是类似正态分布的一种对称分布,通常要比对称分布更平坦和分散
  • 形状依赖于自由度的参数,随着自由度的增大,分布也逐渐趋于正态分布

F 分布主要用于方差分析、协方差分析和回归分析的分析。

X 1 X_{1} X1 服从自由度为 m 的 X 2 X^{2} X2 分布, X 2 X^{2} X2 服从自由度为 n 的 X 2 X^{2} X2 分布,且 X 1 X^{1} X1 X 2 X^{2} X2 相互独立,则称变量 F = ( X 1 m X 2 n ) F=(\frac{\frac{X^{1}}{m}}{\frac{X^{2}}{n}}) F=(nX2mX1) 所服从的分布为 F 分布。


 


样本统计量的抽样分布

  1. 样本均值的抽样分布

定义:重复选取容量为 n 的所有可能样本时,由样本均值的所有可能值形成的相对频数分布。

ta 是推断总体均值 u 的理论基础。

举例:设一个总体含有 4 个元素(个体),即总体单位 N = 4 N=4 N=4。4 个元素分别为 X 1 = 1 、 X 2 = 2 、 X 3 = 3 、 X 4 = 4 X_{1}=1、X_{2}=2、X_{3}=3、X_{4}=4 X1=1X2=2X3=3X4=4,总体的均值,方差及分布如下:


现从总体中抽取 n = 2 n=2 n=2 的简单随机样本,在重复抽样条件下,共有 4 ∗ 4 = 16 4*4=16 44=16,所有样本的结果为:

这样一个简单的总体就可以随机抽取 16 个样本,每个样本的容量是 2。

计算出各个样本的均值如下,并绘制出样本均值的概率分布图:


得出样本均值的抽样分布之后,我们将抽样分布和总体分布放在一起做下比较。


结论:

  • 样本均值的均值等于总体均值
  • 样本均值的方差等于总体方差的 1 n \frac{1}{n} n1

在研究样本均值和总体均值的时候,有一个定理非常重要,就是【中心极限定理】,中心极限定理是概率论中最重要的一类定理,而且应用也非常广泛。

中心极限定理:

一、当总体服从正态分布 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^{2}}{n}) N(μ,nσ2) 时,来自该总体的所有容量为 n 的样本均值 x ‾ \overline{x} x 也服从正态分布,即 x ‾ − N ( μ , σ 2 n ) \overline{x}-N(\mu,\frac{\sigma^{2}}{n}) xN(μ,nσ2)


二、如果总体不符合正态分布,但当 n 充分大时,样本均值的抽样分布也服从正态分布,即 x ‾ − N ( μ , σ 2 n ) \overline{x}-N(\mu,\frac{\sigma^{2}}{n}) xN(μ,nσ2)


我们从图像上来观察中心极限定理的实质:

情况一:

情况二:

情况三:

无论总体是什么分布,只要 N 足够大,样本均值的抽样分布就会接近正态分布。

  1. 样本均值的抽样分布和总体分布的关系

一、当总体分布服从正态分布时,任意一个样本,无论样本容量多大,样本均值都服从正态分布。

二、当总体分布是非正态分布时,只有样本足够大(一般 N > 30),我们就认为样本均值服从正态分布。

三、当总体分布是非正态分布时,如果样本是小样本(N < 30),样本均值的分布不服从正态分布。

案例:某汽车电瓶商声称其生产的电瓶具有均值为 60 个月,标准差为 6 个月的寿命分布,现质检部门决定检验该厂的说法是否正确,为此随机抽取了 50 个电瓶进行寿命检验。试描述 50 个电瓶平均寿命的抽样分布。

尽管我们对总体电瓶的寿命分布形状不了解,但根据【中心极限定理】可以推出:

  • 50 个电瓶(大样本)的平均寿命分布服从正态分布,所以其样本均值的期望仍然是 60。

样本均值的方差为: σ 2 x ‾ = σ 2 n = 6 2 50 = 0.72 = 0.8 5 2 \sigma^{2}\overline{x}=\frac{\sigma^{2}}{n}=\frac{6^{2}}{50}=0.72=0.85^{2} σ2x=nσ2=5062=0.72=0.852

x ‾ − N ( 60 , 0.8 5 2 ) \overline{x}-N(60,0.85^{2}) xN(60,0.852),也就是说:这 50 个电瓶的平均寿命为 60 个月,标准差为 0.85。

  1. 样本比例的抽样分布

样本比例的定义:样本中具有某种属性的单位与总数之比。

e.g. 一个班级中男生所占的比重,一个生产厂中合格品占全部产品的比重。

样本比例可表示为: P = n 0 N P=\frac{n_{0}}{N} P=Nn0

总体比例可表示为: Π = N 0 N \Pi=\frac{N_{0}}{N} Π=NN0

样本比例的抽样比例的定义:在重复选取容量为 n 的样本时,由样本比例的所有可能取值形成的相对频数分布。

样本比例的抽样比例的定理:当样本容量很大时,样本比例的抽样分布可用正态分布近似,即 p − N ( Π , Π ( 1 − Π ) n ) p-N(\Pi,\frac{\Pi(1-\Pi)}{n}) pN(Π,nΠ(1Π))

通过一个案例,来了解下如何应用样本比例的抽样分布。

如果厂商说法正确,那么 50 个样品组成的样本平均寿命不超过 57 个月的概率为: P ( X ≤ 57 ) = 0.0002 P(X\leq57)=0.0002 P(X57)=0.0002

根据小概率事件原理,50 个电瓶的平均寿命低于 57 个月的事件是不可能发生的。

如果真的观察到 50 个电瓶平均寿命低于 57 个月,我们有理由认为:电瓶商的说法(公司生产的电瓶具有均值为 60 个月,标准差为 6 个月的寿命分布)不正确。

  1. 样本方差的抽样分布

用样本方差去推断总体方差,就必须知道样本方差的抽样分布。

统计经验证明:当总体 X − N ( u , Δ 2 ) X-N(u,\Delta^{2}) XN(u,Δ2),从中抽取容量为 n 的样本,则 ( n − 1 ) s 2 Δ 2 − X 2 ( n − 1 ) \frac{(n-1)s^{2}}{\Delta^{2}}-X^{2}(n-1) Δ2(n1)s2X2(n1)
 


第八章:推断统计之假设检验

 


假设检验的原理

假设检验是除了参数估计的,另一种统计推断方法。

假设检验原理:小概率思想 + 反证法。

小概率思想是指小概率事件在一次试验中几乎是不可能发生的。


小概率思想:首先,我们需要对总体做出某种假设,而后抽样得到样本,对样本观察结果。

  • 如果小概率事件没有发生,我们就接受原假设;

  • 如果小概率事件发生了,说明原假设不成立,我们就拒绝原假设。

反证法原理:我们先看看普通逻辑的基本思路。

  • 普通逻辑:你打了某种疫苗 P,就不会得某种流行病 Q,这里的逻辑是:如果 P,则非 Q。

反证法用到的是逆命题:如果 Q,则非P。

  • 反证逻辑:如果观察你得了流行病 Q,就推出你没有打疫苗。

逻辑语言搞清楚后,我们再来看看统计语言,是如何描述上述问题的。

统计语言:

  • 原假设:你打了疫苗
  • 备择假设:你没有打疫苗

在这个过程中,如果我们观察到你得了流行病,那就有 95% 的把握判定你没有打疫苗,这就是反证法的基本原理。

我们通过案例来了解一下假设检验的这 2 个原理。

  • 有一枚硬币,在一次试验中抛了 100 次,结果得到 95 次正面,5 次反面,试用假设检验的方法论证:这枚硬币是否是均匀的。

正常逻辑:抛硬币 — 小概率事件发生(95次正面,5次反面) -> 硬币不均匀

假设检验逻辑:抛硬币 — 原假设:硬币均匀 — 小概率事件发生(95次正面,5次反面)— 原假设不成立(硬币不均匀)

具体步骤:

首先,做出原假设和备择假设:

  • 原假设 H0:硬币是均匀的
  • 备择假设 H1:硬币不是均匀的

其次:分析假设是否成立。

如果硬币是均匀的,就不太可能发生题目中的极端情况(95次正面,5次反面)。

但试验结果确实发生了,也就是小概率事件发生了,所以我们有把握判定:硬币不是均匀的。

最后:得出结论。

拒绝原假设,接受备择假设(即硬币不是均匀的)

另外,在 100 次抛硬币实验中,如果观察到 60 个正面,40 个反面(NOT Q),这时,你就不好下结论了。

因为一个均匀的硬币,可能投出这样的结果,一个有偏的硬币,也可能投出这样的结果。

你只能说,那就没有把握拒绝原假设,这枚硬币是否有偏,需要更多的证明来证明,如再投 1000 次验证硬币是否有偏。
 


原假设和备择假设的确定

首先搞清楚什么是原假设和备择假设。

原假设,是研究者想收集证据证明不正确的假设。

备择假设,是研究者想收集证据证明其正确的假设。

原假设和备择假设的设置要符合这样的原则:

先确定被择假设 -> 再根据对立面,确定原假设。

有一枚硬币,在一次试验中抛了 100 次,结果得到 95 次正面,5 次反面,试用假设检验的方法论证:这枚硬币是否是均匀的。

根据结果初步判断,这种情况是小概率事件,不可能发生,硬币不是均匀的。

所以做假设检验时,【备择假设】应设为:硬币不是均匀的,相应的原假设与备择假设对立,所以【原假设】应设为:硬币是均匀的。

再比如,在【相关性检验】和【独立性检验】中,应该这样设立备择假设和原假设:

  • 相关性检验目的:检验俩者是否相关
  • 备择假设应设为:俩者之间有关联
  • 原假设应设为:俩者之间没有关联
     
  • 独立性检验目的:检验俩者之间是否独立
  • 备择假设应设为:俩者之间独立(没有关联)
  • 原假设应设为:俩者之间不独立(有关联)

所以原假设和备择假设的设定,要看做检验的人基于什么样的目的,而不是随意设置的。

几个练习。

一、采用新技术生产后,将会使产品的使命寿命明显延长到 1500 小时以上,检验这一结论是否成立。

  • 备注假设 H1: μ > 1500 \mu>1500 μ>1500
  • 原假设 H0: μ ≤ 1500 \mu\leq1500 μ1500

二、改进生产工艺后,会使产品废品率下降到 2% 以下。检验这一结论是否成立。

  • 备注假设 H1: μ > 2 % \mu>2\% μ>2%
  • 原假设 H0: μ ≤ 2 % \mu\leq2\% μ2%
     

假设检验的基本概念

在刑事犯罪中,经常犯这样俩类错误:

  • 弃真错误:把一个无辜的人判为有罪
  • 取伪错误:放掉一个有罪的人

在刑事犯罪中,人们总是希望这俩类错误发生的概率越小越好,所以刑事犯罪的重心是【避免犯俩类错误】。

但实际上很难做到,因为时间和精力有限,人们通常是把精力放在更严重的那一类错误上,希望它越小越好。

经过分析发现:

  • 犯第一类错误的后果比犯第二类错误的后果更为严重

所以,刑事破案把更多的精力放在第一类错误上,刑事破案的重心就变成了:避免犯第一类错误。

但即使是只关注这一类错误,也很难 100% 保证第一类错误一点都不犯,也就是我们无法完全避免第一类错误的发生,所以刑事侦查的重心又变成了:控制犯第一类错误的概率。

尽量把【把一个无辜的人判为有罪】这个错误发生的概率控制在一个很小的水平里,这个水平就是我们说的显著性水平 α \alpha α,通常 α \alpha α 设为 0.05。


所以我们说,仅凭统计推断不能做出绝对肯定或者绝对否定的结论。

统计推断的特点就是,得出这个结论有很大可能性,但仍然有一定但错误率。

仅凭统计推断不能做出绝对肯定或绝对否定的结论。

统计推断的特点就是,得出这个结论有很大可能性,但仍然有一定的错误率。

假设检验所依据的基本原理是小概率思想,由于小概率事件,无论其概率多么小,还是有可能发生的,所以利用前面方法进行假设检验时,也有可能做出错误的判断。

常见的错误有俩类:

  • 第一类错误(犯这类错误的概率为 α \alpha α):原假设正确,应当接受却拒绝了原假设。

  • 第二类错误(犯这类错误的概率为 β \beta β):原假设错误,应当拒绝却没有拒绝原假设。


因为不能同时减少俩类错误,所以作检验时,通常是控制犯第一类错误的概率 α \alpha α

显著性水平是用来确定是否接受原假设的概率标准,记住 α \alpha α

常用的显著性水平: α = 0.05 \alpha=0.05 α=0.05(显著水平)、 α = 0.01 \alpha=0.01 α=0.01(极显著水平)

若经过检验:

  • 差异显著:对此结论有 95% 的把握,同时要冒 5% 下错结论的风险
  • 差异极显著:对此结论有 99% 的把握,同时要冒 1% 下错结论的风险
  • 差异不显著:在本次试验条件下,不能否定原假设

再次确定,显著性水平( α \alpha α)的高低只表示下结论的可靠程度,并不能做出绝对肯定或绝对否定的结论。

在做假设检验时,还有一个问题需要关注,就是在做假设检验时,需要选择单侧检验还是双侧检验。

单侧检验:

  • 定义:在分布的一侧检验小概率事件发生的概率
  • 适用范围:如果统计指标只有上限或只有下限,则用单侧检验


我们知道,如果检验统计量的 P 值落在拒绝域内,我们就拒绝原假设。

那么如果是左侧检验,只要 P 值小于临界值,我们就拒绝原假设。


寿命问题适用于左侧检验,因为寿命越大越好,我们只需要关心寿命小于临界值是否是一个小概率事件就可以了。

右侧检验的拒绝域落在整个坐标轴的右侧,所以当检验统计量的 P 值大于临界值时,我们才能拒绝原假设。

产品次品率问题适合采用右侧检验,因为次品率越低越好,我们只要关心次品率大于某临界值是否是一个小概率事件就行。

双侧检验:

  • 定义:在分布的俩端检验小概率事件发生的概率
  • 适用范围:如果统计指标的范围在一个区间内,则用双侧检验


双侧检验是把风险平方到右侧和左侧,比如我们确定的显著性水平为 0.05,即概率曲线左右俩侧各占 0.025。

单侧检验和双侧检验设置原假设的方式也是不同的。

双侧检验原假设:a < x < b,单侧检验原假设:x > a( 或 x < b)

假设检验 P 值,P 值是指 H0 为真时,检验统计量在以观察值为端点的某区域内取值的概率。

利用 P 值进行检验时应遵循这样的准则:

  • 若 P 值 < α \alpha α,拒绝原假设H0
  • 若 P 值 > α \alpha α,接受原假设H0

最终的决策是用 P 值和显著性水平 α \alpha α 做比较。

常见的假设检验的类型有:Z/U检验、T检验、F检验、 X 2 X^{2} X2检验。

一般情况下,总体均值的检验用的是 Z检验、T检验俩种,Z检验一般用于大样本(即样本容量大于30)的均值差异性检验。

T检验用于小样本的均值检验,而且T检验可以在总体方差不知道的情况下,检验样本平均数的显著性。

另外,在进行T检验之前有时候会用到 F检验,它是对俩个总体的方差是否有显著性差异所进行的检验,所以又称为方差齐性检验。

总体比例的检验用的是 Z检验。

总体方差的检验我们用的是 F检验 和 卡方检验。
 


总体均值的检验:Z检验


总体均值的检验是用 Z检验 还是 T检验,是由总体方差 σ \sigma σ 和样本容量 n 这俩个参数确定的。

  • 如果是总体方差 σ \sigma σ 已知,我们就用 Z统计 量进行检验。

  • 如果总体方差 σ \sigma σ 未知,还要看 样本容量n 的大小再决定。

σ 2 \sigma^{2} σ2 未知的情况下,

  • 如果是大样本,仍然选择用 Z统计量 进行检验。

  • 如果是小样本,就用 T统计量 进行检验。

T 检验,是检验差异显著性非常重要的统计工具,它包含三种形式:

首先来看用 Z统计量 来检验总体均值的情况。

案例( σ 2 \sigma^{2} σ2 已知):某机床厂加工一种零件,据经验该厂零件的椭圆度近似服从正态分布,其总体均值 μ 0 = 0.081 m m \mu_{0}=0.081mm μ0=0.081mm,总体标准差 σ = 0.025 \sigma=0.025 σ=0.025

现在想换一种新机床进行加工,抽取 n = 200 n=200 n=200 个零件进行检验,得到的椭圆度的均值为 0.076 m m 0.076mm 0.076mm

试问新机床加工零件的椭圆度的均值与以前有无显著差异?( α = 0.05 \alpha=0.05 α=0.05

首先,通过分析我们大概了解到:总体的方差 σ 2 \sigma^{2} σ2 是已知的,所以无论样本是大样本还是小样本,对总体均值进行检验都应该选择用 Z统计量 检验。

具体步骤:

  1. 首先设置原假设和备择假设

因为机床厂换了新的机床进行加工,肯定希望新机床加工的零件椭圆度和以前有差异。

所以,备择假设H1应设为: μ ≠ 0.081 \mu\neq0.081 μ=0.081

那么相应的原假设与备择假设对立,原假设H0应设为: μ = 0.081 \mu=0.081 μ=0.081

  • H0: μ = 0.081 \mu=0.081 μ=0.081

  • H1: μ ≠ 0.081 \mu\neq0.081 μ=0.081

  1. 根据显著性水平 α \alpha α 和样本容量n确定临界值

已知显著性水平 α \alpha α 为 0.05,我们还知道样本容量n为200,确定了这些已知条件之后,我们就可以通过查【Z界值表】确定临界值了。

  • 临界值 = 1.96

  1. 计算检验统计量,也就是 P 值
  • z = x ‾ − μ 0 σ / n = 0.076 − 0.081 0.025 / 200 = − 2.83 z=\frac{\overline{x}-\mu_{0}}{\sigma/\sqrt{n}}=\frac{0.076-0.081}{0.025/\sqrt{200}}=-2.83 z=σ/n xμ0=0.025/200 0.0760.081=2.83

  • P 值 = -2.83 < -1.96


4. 做出决策

在样本统计量的分布图上,P值正好落在了左边的拒绝域上,所以我们应该在 0.05 的显著性水平上拒绝原假设,接受备择假设。

也就是说,有证据表明新机床加工的零件椭圆度与以前有显著差异。


Z检验在我们的统计软件SPSS中无法实现,只有在R或者EXCEL中才能进行Z检验。

  1. 首先,进入EXCEL表格界面,选择【公式】-【插入函数】


2. 在函数分类中点击【统计】,选择【NORMSDIST】,而后确定

  1. 在弹出的【函数参数】中,将 Z 的绝对值 2.83 录入,临界值 1.96 录入,而后点击【确定】得到函数值 0.997672537


4. 计算 P 值

P 值 = 2(1-0.997672537)=0.004654 < 0.05 = α \alpha α

P 值远远小于显著性水平 α \alpha α,故拒绝原假设H0。

 

案例 σ 2 \sigma^{2} σ2 未知):某电子元件批量生产的质量标准为平均使用寿命1200小时。

某厂宣称他们采用一种新工艺生产的元件质量大大超过规定标准。

为了进行验证,随机抽取了 100 件作为样本,测得平均使用寿命 1245 小时,标准差 300 小时。

检验该厂生产的电子元件质量是否显著高于规定标准?( α \alpha α=0.05)要求:单侧检验。

首先通过分析我们了解到,总体的方差是未知的,样本容量 = 100,是大样本,对总体均值进行检验仍应该选择用 Z统计量 检验。

  1. 首先需要设置原假设和备择假设

因为电子元件厂自己研发的新工艺生产的元件,肯定希望该厂生产的电子元件寿命大于规定标准,所以备择假设H1应该是 μ > 1200 \mu>1200 μ>1200 小时,那么相应的原假设H0与备择假设对立,应设为: μ ≤ 1200 \mu\leq1200 μ1200 小时

  • 原假设H0: μ ≤ 1200 \mu\leq1200 μ1200
  • 备择假设H1: μ > 1200 \mu>1200 μ>1200
  1. 根据显著性水平 α \alpha α为0.05,我们还知道样本容量n为100,确定了这些已知条件之后,我们就可以通过查【Z界值表】确定临界值了。
  • 临界值 = 1.645


3. 计算检验统计量,也就是 P 值

  • z = x ‾ − μ 0 σ / n = 1245 − 1200 300 / 100 = 1.5 z=\frac{\overline{x}-\mu_{0}}{\sigma/\sqrt{n}}=\frac{1245-1200}{300/\sqrt{100}}=1.5 z=σ/n xμ0=300/100 12451200=1.5

  • P 值 = 1.5 < 1.645 P 值=1.5<1.645 P=1.5<1.645

  1. 做出决策

在样本统计量的分布图上,P值没有落在拒绝域上,所以我们在 0.05 的显著性水平上不能拒绝原假设,也就是接受原假设

不能认为该生产的电子元件寿命显著高于 1200 小时

excel 中,在弹出的【函数参数】中,将 Z 的绝对值 1.5 录入,临界值 1.645 录入,而后点击【确定】,得到函数 0.933192799。


计算P值:

P = 1 − 0.933192799 = 0.066807201 > 00.05 = α P = 1 - 0.933192799 = 0.066807201>00.05=\alpha P=10.933192799=0.066807201>00.05=α

P 大于 α \alpha α,故接受原假设H0。
 


总体均值的检验:T检验


T 检验:

  • 单样本t检验
  • 俩独立样本t检验
  • 配对样本t检验

检验:

  • 单样本t检验
  • 俩独立样本t检验
  • 配对样本t检验

单样本t检验

  • 目的:检验某个变量的总体均值和某个指定的检测值之间是否存在显著差异

例如,检验某款新药的有效成份含量是否符合国家标准 — 就是拿这批药剂有效成分的平均含量和国家标准值做比较。

案例:某班级学生的高考数学成绩和全国的平均成绩 70 之间是否存在显著性差异?

基础数据如下图所示:


【单样本t检验】比较的是样本所在的总体均值和已知的总体均值之间的比较。

这个案例比较的是样本所在的班级学生的高考数学成绩和 70 之间的显著性差异。

所以适合采用【单样本t检验】。

在这里样本数据是这 11 个数学成绩,指定的检测标准值是 70,那么备择假设应设为有显著性差异,即 μ ≠ 70 \mu\neq70 μ=70

相应的原假设与备择假设对立,原假设应设为无显著性差异: μ = 70 \mu=70 μ=70

  1. 首先,定义变量【数学成绩】,而后在【数据视图】中输入基础数据


2. 选择合适的T检验类型:点击【分析】,选择【比较均值】,点击【单样本T检验】


3. 将变量【数学成绩】选入到【检验变量】框中,在检验值中输入我们的检验值70

  1. 点击右边的选项按钮,选择合适的置信区间百分比

在这里,我们选择默认值95%,点击【确定】按钮完成所有操作,软件自动执行分析结果。

  1. 解读 分析结果

    在分析结果中可以看到,单个样本统计量包括检验的总体均值(74),标准差(23.444)及T统计量(0.566)。

双尾检验的P值 = 0.584 > 0.05,所以接受原假设,也就是说在 0.05 的显著性水平下,有证据表明:这个班级的高考数学成绩与全国平均成绩70之间并没有显著差异。

 
俩独立样本t检验:

  • 目的:利用来自俩个总体的独立样本,推断俩个总体的均值是否存在显著差异

例如,比较男女身高是否存在差别。(男生和女生分别来自 2 个不同的样本,独立样本t检验就是对这俩个样本所在的总体平均身高做对比)

另外需要说明的是,在独立样本t检验中,使用t检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。

只有通过了F检验,进行T检验才有意义。

案例:分别从俩个班级随机抽取 12 名学生,分析他们某一项心理能力测验分数的平均数是否存在显著性差异。

这是从俩个班级随机抽取的学生,样本来自俩个独立的总体,所以适用于【独立样本t检验】。

  1. 定义变量【班级】和【得分】,【数据视图】中输入基础数据


2. 选择合适的T检验类型:点击【分析】,选择【比较均值】,点击【独立样本T检验】

  1. 将变量【得分】选入到【检验变量】框中,将变量【班级】选入分组变量中


4. 对分组变量【班级】进行赋值

例如,班级1赋予数值1,班级2赋予数值2,点击【确定】完成所有操作,软件自动执行分析结果。


5. 结果解析


在独立样本T检验中,使用T检验是有条件的,其中之一就是要符合方差齐次性,也就是要在方差相等的前提下才有意义,这点需要F检验来验证,所以首先来看F检验的结果。

通过F检验的观察值为0.206,P值为0.654,大于显著性水平0.05,认为俩总体的方差不存在显著差异,方差齐性,所以通过了F检验。

继续看t检验的结果,t检验的观察值是0.499,P值 = 0.623,大于显著性水平0.05,所以认为俩个总体的均值不存在显著差异。

也就是说俩个班级的学生心理能力水平没有显著差异。

配对样本t检验

  • 目的:主要用于配对样本资料对俩个总体均值之差的假设检验,它是对前后所收集数据的平均数的差异进行显著性检验。配对的概念指的是俩个样本的各均值之间存在着对应关系。

例如,一组病人治疗前后的体重对比;某种教学方法是否对教学有效,也就是确定能提高学生成绩;某种训练是否对接受训练的人的某一身体机能有改善作用。

案例:研究一个班同学在参加了暑期数学,化学培训班后,学习成绩是否有显著变化,基础数据已提供。

从基础数据中可以看到参加培训前的成绩和参加培训后的成绩,ta是对同一个研究对象给予了俩种不同的处理效果,一种是未成绩培训的,样本来自俩个配对的总体,所以适用于【俩配对样本的T检验】。

  1. 定义变量,输入基础数据


2. 选择合适的T检验类型:点击【分析】,选择【比较均值】,点击【配对样本T检验】

  1. 在弹出的【配对样本T检验】中,将配对的变量选入【成对变量】框中


4. 点击右边的选项按钮,选择合适的置信区间百分比(默认95%)


5. 结果解析


第一个表格是数据的基本描述。

第二个表格是数据前后变化的相关系数,那个概率P值是相关系数的概率值,可以看到 2 个P值 0.761 和 0.072 都大于显著性水平0.05,说明数据变化前后没有显著的线性变化,线性相关程度较弱。

第三个表格是数据相减后与 0 的比较,概率 P 值 0.046、0.032,都小于显著性水平0.05,所以拒绝原假设。

也就是说相减的差值与0有较大差别,说明数据变化前后有显著的变化,即参加培训有效果。
 


总体方差和总体比例的检验

总体方差的检验:F检验。

案例:一次英语考试后,从俩个学校分别随机抽取试卷数量 n 1 = 10 ,   n 2 = 9 n_{1}=10,~n_{2}=9 n1=10, n2=9,求得样本的修正方差即总体方差的估计值为 S 1 2 = 236 ,   S 2 2 = 63.36 S_{1}^{2}=236,~S_{2}^{2}=63.36 S12=236 S22=63.36,问俩校这次考试离散程度是否有显著差异?( α = 0.05 \alpha=0.05 α=0.05)

具体步骤:

  1. 首先设置原假设和备择假设

对于F检验来说,原假设应设为:俩个方差相等,备择假设应设为:俩个方差不相等。

  • 原假设H0: σ 1 2 = σ 2 2 \sigma_{1}^{2}=\sigma_{2}^{2} σ12=σ22
  • 备择假设H1: σ 1 2 ≠ σ 2 2 \sigma_{1}^{2}\neq\sigma_{2}^{2} σ12=σ22
  1. 根据显著性水平 α \alpha α和样本容量n确定临界值

已知显著性水平 α \alpha α为0.05,我们还知道俩个样本的自由度是样本容量-1。所以, d f 1 = n 1 − 1 = 10 − 1 = 9 , d f 2 = n 2 − 1 = 9 − 1 = 8 df_{1}=n_{1}-1=10-1=9,df_{2}=n_{2}-1=9-1=8 df1=n11=101=9,df2=n21=91=8

  • F 0.05 ( 9 , 8 ) = 3.39 F{0.05(9,8)}=3.39 F0.05(9,8)=3.39


 
总体方差的检验: X 2 X^{2} X2检验。

总体方差检验的前提条件是:总体近似服从正态分布。

总体方差的检验统计量为: X 2 = ( n − 1 ) S 2 σ 0 2   X 2 ( n − 1 ) X^{2}=\frac{(n-1)S^{2}}{\sigma_{0}^{2}}~X^{2}(n-1) X2=σ02(n1)S2 X2(n1)

  • σ 0 为 假 设 的 总 体 方 差 \sigma_{0} 为假设的总体方差 σ0

某厂商生产出一种新型的饮料装瓶机器,按设计要求,该机器装的饮料误差上下不超过 1 c m 3 ( 一 瓶 1000 c m 3 ) 1cm^{3}(一瓶1000cm^{3}) 1cm31000cm3

如果达到设计要求,表明机器的稳定性非常好,现进货方从该机器装完的产品中随机抽取25瓶,分别进行测定,得到如下结果。

检验该机器的性能是否达到设计要求?( α = 0.05 \alpha=0.05 α=0.05)要求:双侧检验。

其中表格中的数据是用样本中每瓶饮料的容积 − 1000 c m 3 -1000cm^{3} 1000cm3计算出来的误差。

具体步骤:

  1. 首先设置原假设和备择假设

因为机器是供货方生产的,而进货方总是希望供货方的机器达不到要求,所以备择假设应该是:总体方差大于1,那么相应的原假设与备择假设对立,应设为:总体方差小于1。

  • 原假设H0: σ 2 < 1 \sigma^{2}<1 σ2<1
  • 备择假设H1: σ 2 > 1 \sigma^{2}>1 σ2>1
  1. 根据显著性水平 α \alpha α和样本容量n确定临界值

已知显著性水平 α \alpha α为0.05,我们还知道样本容量n=25,根据显著性水平和样本容量,查找【 X 2 X^{2} X2分布界值表】确定 X 2 X^{2} X2临界值。

得到双侧临界值为 12.4 和 39.36。


3. 计算检验统计量,也就是P值

  • X 2 = ( n − 1 ) s 2 σ 0 2 = ( 25 − 1 ) 0.866 01 = 20.8 X^{2}=\frac{(n-1)s^{2}}{\sigma_{0}^{2}}=\frac{(25-1)0.866}{01}=20.8 X2=σ02(n1)s2=01(251)0.866=20.8

P 值 = 20.8 介于【12.4~39.36】。

  1. 做出决策

在样本统计量的分布图上,P值正好落在了可接受域上,所以我们在 0.05 的显著性水平上不能拒绝原假设,也就是接受原假设。

该机器的性能达到了设计要求。

总体比例的检验:Z检验。

前提条件:

  • 总体服从二项分布
  • 可用正态分布来近似

总体比例检验的Z统计量:

  • Z = P − Π 0 Π 0 ( 1 − Π 0 ) n − N ( 0 , 1 ) Z=\frac{P-\Pi_{0}}{\sqrt{\frac{\Pi_{0}(1-\Pi_{0})}{n}}}-N(0,1) Z=nΠ0(1Π0) PΠ0N(0,1)

P 指的是样本比例, Π 0 \Pi_{0} Π0 为假设的总体比例。

案例:一项统计结果声称,某市老年人口(年龄在65岁以上)的比重为 14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽取了 400 名居民,发现其中有 57 人年龄在65岁以上。调查结果是否支持该支持该市老年人口比重为 14.7% 的看法?( α = 0.05 \alpha=0.05 α=0.05)要求:双侧检验

  • 样本比例 P = 57 400 = 0.1425 P=\frac{57}{400}=0.1425 P=40057=0.1425

  • 总体比例 Π = 0.147 \Pi=0.147 Π=0.147

具体步骤:

  1. 首先设置原假设和备择假设

因为某市老年人口的比重为 14.7% 这个结论是一项统计结果,而老年人口研究会总是希望对方的研究结果是错误的。所以备择假设应该是:总体比重不等于 14.7%,那么相应的原假设与备择假设对立,应设为:总体比重等于 14.7%。

  • 原假设H0: Π = 14.7 \Pi=14.7% Π=14.7
  • 备择假设H1: Π ≠ 14.7 \Pi\neq14.7% Π=14.7


2. 根据显著性水平 α \alpha α和样本容量n确定临界值

已知显著性水平 α \alpha α为 0.05,我们还知道样本容量 n=400,根据显著性水平和样本容量,查找【Z界值表】确定Z临界值。

得到Z临界值为 1.96。

  1. 计算检验统计量,也就是P值
  • z = 0.1425 − 0.147 0.147 ∗ ( 1 − 0.147 ) 400 = − 0.254 z=\frac{0.1425-0.147}{\sqrt{\frac{0.147*(1-0.147)}{400}}}=-0.254 z=4000.147(10.147) 0.14250.147=0.254

P值 = -0.254。

  1. 做出决策

在样本统计量的分布图上,P值正好落在了可接受域上,所以我们在 0.05 的显著性水平上不能拒绝原假设,也就是接受原假设。

该市老年人口比重为 14.7%。
 


第九章:相关与回归分析

 


统计基础:什么是相关关系

统计量都是用来描述某个变量的,比如【某个人的身高】、【篮球队员的得分】,或者【糖球口味持续时间】。

另外还有一些统计量,可以说明变量之间的关系,包括确定性关系和非确定性的关系。


变量之间确定性的关系称为函数关系,它有精确的数学表达式;变量之间不确定性的关系称为相关关系,它往往不能用数学表达式来表达。

变量之间的关系:函数关系

当变量X取值 X 1 X_{1} X1的时候,另一个变量Y有确定的值 Y 1 Y_{1} Y1与之对应,我们称这种关系为确定性的函数关系。

  • 例如,销售额Y和销量X的关系可表示为:Y=P*X(P为单价)
  • 圆的面积(S)和半径R之间的关系可表示为: S = Π r 2 S=\Pi r^{2} S=Πr2

函数关系的特点:

  • 变量之间是一一对应的确定关系
  • Y随X一起变化,并完全依赖于X
  • 各观测点落在一条线上

变量之间的关系:相关关系

变量之间不确定性的关系称为相关关系,它包括因果关系和平行关系。

相关关系的变量之间保持着不确定性的数量依存关系 — 变量间的关系不能用函数关系精确的表达,当变量X取某值时,变量Y的取值可能有几个。

相关关系的特点:

  • 变量间的关系不能用函数关系精确表达
  • 一个变量的取值不能由另一个变量唯一确定
  • 当变量X取某个值时,变量Y的取值可能有好几个
  • 各观测点分布在直线周围

相关与回归分析就是了解,变量之间相关关系的统计方法。

相关关系有哪些类型:

  • 正线性相关
  • 不相关
  • 负线性相关

正线性相关:

一、一个变量增长,另一个变量也相应的增长

二、或者一个变量减少,另一个变量也相应减少


正线性相关而不是正相关,变量之间正相关不一定是正线性相关,还要看变量之间具体的函数F(X)是一次函数函数二次函数或者其他曲线。


正线性相关的函数是一次函数,也是正比例或反比例函数,函数表达式一般为 Y = a X + b Y=aX+b Y=aX+b

如果不是一次函数,那么图像可能是二次曲线或者其他类型的曲线,比如抛物线等,那我们就只能说俩者是正相关,不能说正线性相关。

在相关关系中,我们研究的变量都是一次函数。

负线性相关:

一、一个变量增长,另一个变量相应的减少

二、或者一个变量减少,另一个变量相应的增长

不相关:

一、俩个变量之间不相关指的是,俩个变量之间是随机模式,不存在相关性。

相关关系不等于实际关系:

  • 相关关系 = 数学关系 != 实际关系

俩个变量之间存在相关关系,并不一定意味着一个变量会影响到另一个变量,也不意味着俩者存在实际关系。

案例:在一个小镇上,假设你收集了数据发现,某个小镇上咖啡店的数目增多了,同时,唱片店的数目减少了。

我们能说,咖啡店数目的增加导致了唱片店数目的减少吗?

显然不能,咖啡店数目和唱片店数目在数学上相关,但并没有什么实在的关系。
 


统计基础:相关分析和回归分析

相关与回归分析,是了解事物之间相关关系,最常用的统计方法。

用相关与回归分析,如何分析变量之间的关系呢?

一、回归分析 - 因果关系

具有相关关系的变量之间,如果存在因果关系,我们就用回归分析确定他们之间的关系。

因果关系的表现形式有多种:

  1. 1种原因引起1种结果

变量X -> 变量Y。

  1. 多种原因引起一种结果

变量X1、变量X2、变量X3 -> 变量Y

  1. 变量之间互为因果

变量X <–> 变量Y

案例:


比如人的收入水平Y,与受教育程度X之间的相关关系,就属于存在因果关系的相关关系


或者某个产品的客户满意度,可能来自于性能、价格、包装、品牌等不同的因素,我们可以对这些因素同时进行分析。

比如,通过 SPSS 分析之后,结果会反映每个因素对产品满意度的相关程度。

以上案例均属于,具有因果关系的相关关系,对这些变量之间的函数关系进行拟合,我们称之为回归分析。
 
二、相关分析 - 平行关系

具有相关关系的变量之间,如果不区分原因和结果,我们称之为相关分析。

相关分析是看俩个因素之间的相关性,不需要确定哪个是自变量,哪个是因变量,俩个因素是平行关系。

案例:

比如,个头和脚的大小,相关性就会比较高一些,因为个头越高的人,脚会相应的越大,脚越大的人相应的个头也越高。

而个头高和头发长度,那么基本上就是不相关的。如果我们知道一个人个头高,那么我们可以比较有把握的认为TA脚大,但不会认为TA头发长。

三、相关分析与回归分析的关系

区别:

  • 相关关系:强调现象之间是否相关、相关的方向和密切程度
  • 回归关系:分析现象之间的具有形式、确定其因果关系,并用数学模型来表现其具体关系


用户满意度和产品质量之间存在相关关系,首先,从相关分析中我们可以得知,产品质量和用户满意度之间密切相关,但是这俩个变量之间到底是哪个变量受哪个变量的影响,影响程度是怎样的,就需要通过回归分析方法来确定他们之间具体的因果关系。

区别:

  • 相关分析:不需要区分自变量和因变量,变量1、变量2
  • 回归分析:首先问题就是确定哪个是自变量,哪个是因变量,自变量、因变量

区别:

  • 相关分析:只能计算一个相关系数 α \alpha α
  • 回归分析:当俩现象互为因果关系时,就可以确定俩个独立的方程,从而就有俩个不同的回归系数 α 、 β \alpha、\beta αβ


联系:

  • 相关分析是回归分析的基础和前提,只有变量之间存在高度相关时,进行回归分析确定相关的具体形式才有意义

  • 回归分析是相关分析的继续和深入,变量之间的相关程度需要回归分析来确认
     


统计基础:如何求最佳的拟合线

回归分析的本质,就是对变量之间的关系,拟合出一条确定的直线或曲线,那如何求出这条曲线呢?

案例:某露天音乐会受天气影响很大,唱片公司希望能够根据天晴时数预测听众人数,如果听众人数少于3500人,票房收入将无法抵消成本费用,他们就取消音乐会。


如何利用散点图根据天晴时数,预测音乐会听众人数呢?

我们在散点图上画一条穿过这些点的直线,使这条线尽量接近各个点,当然你无法令这条直线穿过每一个点。


不过,若存在线性相关性,则应该可以保证每一个点合理的接近你所绘制的直线,这样我们就可以根据预计的天晴时数,找出音乐会人数的估计值。


问题是,我们可以绘制出好几条线,可这些线各不相同,但数据基础相同,该用哪一条呢?

这三条线都可以想当然的被认为是数据的最佳拟合线,但我们需要一种统计方法求出名副其实的最佳的拟合线。


如果我们发现有一条线,使得所有Y的实际值和预测值之间的距离最小,所得到的这条直线就是最佳拟合线。

Y 的实际值和预测值之间的距离,我们可以用一个公式【误差平方和】来表达。

  • S S E = ∑ ( y − y ^ ) 2 SSE=\sum{(y-\hat{y})^{2}} SSE=(yy^)2

  • SSE:误差平方和

  • y:实际值

  • y ^ \hat{y} y^:通过最佳拟合线得出的预测值

SSE 让我们想起了方差,方差用的是数值y与均值 y ^ \hat{y} y^的距离的平方,SSE用的是数值y与直线的距离的平方。

所以,求最佳拟合线就是求使得误差平方和最小的那条直线。

如何求最佳拟合线呢?

具体案例:

步骤一:设直线公式


我们用X表示预计天晴时数,用Y表示相应的露天音乐会听众人数,只要我们能求出a和b,就能求出直线等式,这样就能按照天晴时数预测音乐会听众人数。

步骤二:求最佳拟合线的斜率b

已知最佳拟合线函数为 Y = a + b x Y=a+bx Y=a+bx,b代表这条直线的斜率。

或者说,b是最佳拟合线的斜率。

  • b = ∑ ( ( x − x ‾ ) ( y − y ‾ ) ) ∑ ( x − x ‾ ) 2 b=\frac{\sum((x-\overline{x})(y-\overline{y}))}{\sum(x-\overline{x})^{2}} b=(xx)2((xx)(yy))

将 x 和 y 带入 b 的公式中,求出b:

  • ∑ ( x − x ‾ ) ( y − y ‾ ) = 122.53 \sum(x-\overline{x})(y-\overline{y})=122.53 (xx)(yy)=122.53
  • ∑ ( x − ( ‾ x ) ) 2 = 23.02 \sum(x-\overline(x))^{2}=23.02 (x(x))2=23.02

∑ ( x − x ‾ ) ( y − y ‾ ) \sum(x-\overline{x})(y-\overline{y}) (xx)(yy) 除以 ∑ ( x − x ‾ ) 2 \sum(x-\overline{x})^{2} (xx)2,即得到数值b,因此:

  • b = 122.53 23.02 = 5.32 b =\frac{122.53}{23.02}=5.32 b=23.02122.53=5.32

所以,数据的最佳拟合线为 y = a + 5.32 x y=a+5.32x y=a+5.32x,那么 a 又是多少呢?

步骤三:再求直线中的 a 是多少

我们知道,只要知道直线所经过的一个点就能求出a。

最佳拟合线最好穿过 x 和 y 的均值( x ‾ ,   y ‾ \overline{x},~\overline{y} x, y),为了确保这一点,我们用 x ‾ \overline{x} x y ‾ \overline{y} y 代入直线公式 y = a + b x y=a+bx y=a+bx

得到:

  • y ‾ = a + b x ‾ \overline{y}=a+b\overline{x} y=a+bx

或者

a = y ‾ − b x ‾ a=\overline{y}-b\overline{x} a=ybx

我们已经求出了 x ‾ 、 y ‾ \overline{x}、\overline{y} xy 和 b 的值,代入这些值,得: a = 15.80 a=15.80 a=15.80


所以,最佳拟合线公式为: y = 15.8 + 5.32 x y=15.8+5.32x y=15.8+5.32x

有了最佳拟合线的函数关系,我们就可以对任意一个X,求出Y了。
 


统计基础:根据相关系数查看拟合情况

对于直线 Y = a + b x Y=a+bx Y=a+bx,尽管美其名曰最佳拟合线,但我们并不知道这条线的准确性如何?

还有,回归线的相关程度如何。

尽管最佳拟合线是与数据拟合程度最高的直线,但它并不能与每个点都精确拟合。

让我们查看一些相关关系,看看直线和数据的拟合情况:

一、精确线性相关


二、非线性相关

发现问题所在了吗?尽管俩组数据都有回归线,但数据实际拟合程度却不大相同,第一组数据都相关性十分明显,但第二组数据非常分散,以致回归线丧失了应有的意义。


有一种方法可以衡量直线拟合的程度 — 计算相关系数。


相关系数描述了各个数据点与直线的偏离程度,通过它可以度量回归线与数据的拟合程度。

通常情况下,相关系数r介于【-1,1】之间:

  • r 越接近1或-1,相关性越强,数据点距离直线越近,拟合准确度越高。
  • r 越接近0,相关性越弱,数据点距离直线越远,甚至不存在相关关系。

下面这些相关关系属于极值情况,可以更好的理解直线和数据的拟合情况:

完全正线性相关:如果r=1,则数据完全正线性相关。


完全负线性相关:如果r=-1,则数据为完全负线性相关,所有数据点都在一条直线上。


不存在相关关系:如果r=0,则不存在相关性。


公式:


代入音乐会的数据得到相关系数r:

  • r = b s x s y = 5.32 ∗ 1.81 10.56 = 0.91 r=\frac{bs_{x}}{s_{y}}=5.32*\frac{1.81}{10.56}=0.91 r=sybsx=5.3210.561.81=0.91


由于r接近1,说明露天音乐会听众人数,和天晴时数之间有很强的正相关。

换句话说,根据我们手头的数据,我们完全可以按照最佳拟合线 y=15.8+5.32x,根据天晴时数,估计出相应的音乐会听众人数。


 


SPSS实操:相关分析案例

 


SPSS实操:线性回归案例

 


SPSS实操:曲线线性回归案例

 


第十章:方差分析

 


统计基础:为什么要进行方差分析

日常生活中我们经常发现,影响一个事物的原因有很多。

我们往往希望找到影响因素最显著的是哪个?

比如,学生成绩的影响因素有很多,包括性别、智力、家庭环境、个性等很多因素。

那么,哪一个因素影响最大呢?

起显著作用的因素,在什么时候起最好的显著作用呢?

方差分析,就是解决这些问题的一种有效方法!

通过案例来了解,具体为什么要进行方差分析。

案例:销售培训对销售行业的影响。

某公司希望对新进的销售人员进行销售培训,以保证销售业绩。

为此公司设置了 2 组培训课程,我们让 A 组的销售人员接受 A 课程销售训练,B 组的销售人员接受 B 课程销售训练,C 组作为对照组不参加任何训练。


参加完培训之后,3 组销售人员的实际销售业绩如图所示:


参加 B 课程的人销售业绩的均值(2928)是最高的,其次是参加 A 课程的人,C 组没参加任何培训,销售业绩最差,所以,不同组的销售人员,业绩是有差别的。

再看 A 组中每个人的销售业绩各不相同,说明同一组中接受相同课程培训的,销售人员业绩也不同。

影响销售业绩的因素主要要有 2 类:

  1. 是否参加培训课程
  2. 随机因素,比如个人特征、运气

前面我们按照参加课程的类别分成了 3 组,每个组之间的销售业绩都存在差异,我们把不同组之间的业绩差异称为【组间差异】。


同时,同一个组的不同人之间销售业绩也是存在差异的,我们把同一组内的业绩差异称为【组内差异】。

我们划分组的时候,就是按照是否参加培训划分的,所以,组间差异主要是由是否参加培训造成的。

对于组内的业绩差异,我们没有设置人为的干扰,所以,组内差异主要是由随机因素造成的。

那如何判断销售训练是否有意义呢?


显然,如果 3 组销售人员的平均业绩没有显著差别(组间差异不明显),那么说明参加 A 课程,和参加 B 课程是没有差别的,也就是说,销售培训课程无意义。

但如果接受训练的销售人员的业绩突出,那就说明销售训练成功。

组间差异有可能是由是否参加培训课程造成的,也有可能是随机因素造成的。

所以,方差分析要解决的就是【参加销售培训】是否是影响业绩的显著因素。

案例:不同专业对毕业起薪的影响。

为了比较四个专业的毕业起薪,我们从某高校四个专业的毕业生中,分别随机选择 6 人调查他们的起薪。

需要我们思考的是:

  • 专业这一因素是否影响毕业起薪?

  • 如果影响,是否显著影响?

为了弄清这个问题,我们需要了解下面几个概念:


前面我们学习过:如何通过样本均值得到总体均值U,我们根据公式得出 u 1 、 u 2 、 u 3 、 u 4 u1、u2、u3、u4 u1u2u3u4,也就是 4 个专业的平均起薪之后,只要弄清楚 u 1 、 u 2 、 u 3 、 u 4 u1、u2、u3、u4 u1u2u3u4 是否相等就行了。

KaTeX parse error: Double subscript at position 24: …\mu_{2}=\mu_{3}_̲\mu_{4}??

我们做出 4 组数据的分布图如下:


如果 4 个总体均值都相等,说明不同专业毕业起薪的均值相等,或者说专业这一因素并不影响毕业起薪。


如果 4 个总体均值都不相等,也就是不同专业学生对应的毕业起薪的平均值不相等,说明专业是毕业起薪的一个影响因素。

所以在这个案例中,方差分析要解决的就是:专业是否是影响毕业起薪的一个显著因素?
 


统计基础:方差分析概述

方差分析就是找出影响事物最显著的那个因素。

为了更好的理解后面的分析,我们有必要理解这样几个概念:

  1. 因素


方差分析研究的对象称为因素,它是一个独立的变量,例如案例中的培训课程建设一个待研究的因素。

  1. 水平

因素的不同状态称为水平,分组是按照因素的不同水平划分的。

案例中,因素培训分为 3 个水平(A 课程、B 课程、无训练)。

  1. 因变量

在分组试验中,对试验对象所观测记录的变量,称为因变量(响应变量);它是受各因素影响的变量,例如案例中的销售业绩受培训因素影响。

三者之间具体是什么关系呢?

因素下不同的水平,会影响最终的响应变量,也就是因变量。

常见的方差分析类型有:

  • 单因素方差分析
  • 多因素方差分析

单因素方差分析,是指检验由单一因素影响一个因变量的组间差异是否显著。

在上面的案例中,就是指不同的培训水平,对销售业绩的影响分析。

多因素方差分析,对一个响应变量是否受多个因素影响进行分析,常用的是双因素方差分析。

  • 双因素方差分析,是指对一个因变量是否受俩个因素影响进行分析。比如同时考虑培训水平和年龄对销售业绩的影响。

 


统计基础:单因素方差分析

方差分析的基本思路就是,判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的。

首先来看【单因素方差分析】,也是模型中只有一个自变量(因素)和一个因变量。

在上面毕业起薪的案例中,假设张三点专业代码是 1。

张三点起薪 = 专业1的平均起薪 + 随机因素带来的影响 = 总平均起薪(含所有专业)+ 专业1点平均值与总平均起薪之差+随机因素带来的影响


所以,我们可以用公式表达任意一个学习的起薪。


什么是总变差?

定义:一群刚毕业的学生,他们的毕业起薪各不相同,有的来自同一专业,有的来自不同的专业。

各个学生之间的毕业起薪的差异之和叫做总变差。


总变差 = 组间离差平方和 + 组内离差平方和

组间离差平方和

定义:组间离差平方和反映的是组间之间的差异程度。


在这个案例中指的是不同专业之间的毕业起薪差异。


组内离差平方和

定义:组内离差平方和反映的是组内之间的差异程度。


在这个案例中指的是同一专业不同学生之间的毕业起薪差异。

我们知道,所有样本数据的离差肯定和样本个数有关,所以为了消除样本个数对离差平方和的影响,需要对其除以个数进行平均。

具体计算方法是:用【离差平方和】除以相应的【自由度】。


P.S. 其中,组间方差自由度是 r-1。


P.S. 其中,组内方差自由度是 n-r。

什么是自由度?

定义:样本中独立或者能自由变化的自变量的个数。

  • 平均数 x ‾ = 1 n ( x 1 + x 2 + ⋅ ⋅ ⋅ + x n ) \overline{x}=\frac{1}{n}(x_{1}+x_{2}+···+x_{n}) x=n1(x1+x2++xn)

比如在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为 n。

但在估计总体方差时自由度却是 n-1,主要是因为在估计方差前,均值就已经确定了,如果知道了其中 n-1 个数的离差平方和,第 n 个数的离差平方和也就确定了。

这里,均值就相当于一个限制条件,由于加了这个限制条件,所以,总体方差的自由度为 n-1。

组间方差的自由度?

组间方差就是用【组间离差平方和】除以【自由度】,这里的自由度是 r-1,其中 r 为因素水平个数,在这个案例中 r 指的是总体学生被分成了 r 个专业。


我们知道,自由度指的是自由取值的个数,在这里总得离差平方和是固定的,确定了 r-1 个专业的离差平方和之后,第 r 个专业的离差平方和就确定了。

所以,组间方差和总体方差一样,能够自由取值的个数(也就是自由度)都是 r-1。

这里的组间方差主要是指各个专业的毕业起薪的差异,它受不同专业和随机因素的影响。

组间方差的自由度?

组内方差是用组内离差平方和,除以自由度 n-r。

总体自由度 - 组间自由度 = 组内自由度

(n-1) - (r-1) = (n-r)

那么组内方差自由度为什么是 n-r 呢?

用上面这个简单的公式就可以推导,最终求出组内自由度就是 n-r。

这里的组内方差是指,同一个专业不同的学生之间毕业起薪的差异,主要受随机因素的影响。

如何进行显著性检验?

了解了数据间的组内差异和组间差异之后,我们需要借组一个统计量来检验,因素对结果的显著影响。


我们用组间差异除以组内差异来表示,也就是我们的检验统计量F。

如果因素(专业)的不同水平对结果(毕业起薪)没有影响,那么在组间方差中只包含随机误差,俩个方差的比值会接近1。

如果不同水平(专业)对结果(毕业起薪)有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1。

当这个比值达到某个程度时,就可以说不同水平间存在显著差异,或者说因素A(专业)对结果(毕业起薪)有显著影响。
 


统计基础:双要素方差分析

假设我们想要研究影响饮料销售的因素,我们除了关系饮料的品牌之外,还想了解销售地区是不是也影响销量。

如果在不同的地区,销量存在显著的差异,那就说明地区这一因素也影响销量。

这时候我们就可以对品牌和地区这俩个因素同时进行分析和检验,看看究竟是一个因素在起作用,或者俩个因素对影响都不显著,这就是双因素方差分析。


如果验证结果确定了地区确实是影响销量的显著因素,接下来就可以实施相应的营销策略了。

  • 在市场占有率高的地区继续深入人心,保持领先地位
  • 在市场占有率低低地区进一步扩大宣传,让更多的消费者了解、接受该产品。

双因素方差分析:

  • 无交互作用
  • 有交互作用

双因素方差分析有俩种类型,一种是无交互作用的双因素方差分析,一种是有交互作用的双因素方差分析。

对于无交互作用的双因素方差分析,它假定因素A和因素B的效应之间,是相互独立的,不存在相互关系。

案例:某产品的生产,需要甲乙丙丁 4 名工人分别操作 a, b, c 三台机器各一天。

对于产品的质量来说,不同的工人对产品的产量有显著影响,不同的机器对产品的产量也有显著影响。

但工人和机器之间相互独立,没有交互作用,这种类型的方差分析,我们称之为【无交互作用的方差分析】。


在无交互作用的双因素方差分析中,因变量的总变差有以上 3 种差异构成。

对于有交互作用的双因素方差分析,它假定因素A和因素B的结合,会产生出一种新的效应。

案例:假设有这样一群学生,把这些学生分成2类:在校和在职,把这些学生随机分成2组,分别采用课堂讲授和交互式教学方法,考试成绩结果如下所示。

课堂讲授交互式教学
在校9075
在职7590
  • 不同的教学方法对学生的成绩是有影响的。其中,课堂讲授更适合在校学生,交互式教学更适合在职学生。

  • 不同的学生类别对成绩也是有影响的。

结论:说明教学方法和学生类别这俩个因素,都影响考试成绩,而且存在交互作用。


在有交互作用的双因素方差分析中,因变量的总变差由以上 4 种差异构成。

当然,判断有无交互作用,需要看 SPSS 方差分析的结果判定,而不是凭主观臆断。
 


SPSS实操:单因素方差分析案例

 


SPSS实操:双因素方差分析案例

 


第十一章:主成分分析

 


统计基础:主成分分析原理

主成分分析和因子分析都是利用了多元分析中降维的统计思想。


其中,主成分分析在我们的日常生活中很常见,而且应用也非常广泛。

主成分分析可以有效的找出,数据中最主要的元素和结构,去除噪音和冗余,揭示隐藏在复杂数据背后的简单结构。

首先,我们来看主成分分析究竟是什么样的原理。

案例:比如拿到一个汽车的样本,里面既有以【千米/每小时】度量的最大速度特征,也有【英里/每小时】的最大速度特征。

【千米/每小时】、【英里/每小时】,显然这俩个特征有一个多余,我们考虑是不是可以删掉一个?

案例:影响学生期末考试成绩的主要成分,里面共有三列,分别是 — 【对数学的兴趣程度】、【复习时间】、【考试成绩】。


我们知道要想有好的成绩,需要有浓厚的兴趣,所以考试成绩与兴趣程度强相关。

同时,考试成绩和复习时间也是强相关,哪一项是影响考试成绩最主要的成分和因素呢?

用主成分分析就可以解决这类问题。

案例:北京的房价和哪些因素有关系。

假设房子的特征有以下这些:


虽然特征很多,我们的样本只有不到十套房子。

如果拿到一个样本特征非常多,而样例特别少,这样用回归去直接3拟合房子特征和房价的关系,就容易造成过度拟合。

过度拟合多模型实际上包含了错误的信息,预测能力很差,因为模型和软件,会把噪音当成了信息进行拟合,使得拟合优度超过了理论的最优拟合度。

所以,在这个案例中我们直接回归分析,去拟合房价和房子特征的关系就会非常困难。

那是否可以把这些众多的特征值,浓缩成几个变量再去拟合呢。

同时能够确保,这些变量能包含原来的大部分信息。

将多个变量浓缩成少量变量,就涉及到主成分分析。

案例:在信号传输过程中,由于信道不是理想的,信道另一端收到的信号,就会有噪音扰动。


所谓噪音是指,数据传输过程中周围各种干扰对数据产生的影响。

案例:假设我们要进行销售预测,通常要准备大量的历年销售数据。因为要根据历年数据来预测未来销售趋势,这时候就必须考虑大活动的干扰和影响。


因为活动日和节假日的销售数据,往往受【促销价格】。

这种人为因素,属于消费者在特定阶段的行为,与未来的趋势无关,属于外部人为干扰,所以数据需要过滤掉。

怎样才能过滤掉这些噪音呢?

对于以上这些问题,我们用主成分分析的方法就可以解决。

主成分分析有哪些作用。

  1. 首先,减少特征数

比如学生姓名和TA的成绩无关,在分析成绩的影响因素时,就可以删除学生姓名这个特征。

  1. 其次,减少噪音和冗余

比如信息传输中的噪音。

  1. 减少过度拟合的可能性

比如北京房价和房价特征之间的过度拟合。
 


统计基础:主成分分析的几何解释

主成分分析的几何解释?

主成分分析是多元分析中一种降维的统计方法。

例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。


这时候计算总分的时候,就需要把几个化学成绩降维成一个化学成绩,否则就会由于信息的重叠导致结果失真。

直白说就是用多个指标分析一个问题时,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等的纳入模型,就会导致结果失真。

案例:假定你是一个公司的财务经理,掌握了公司的所有数据,这些数据包括很多的变量,如各种税费、固定资产、工资支出、流动资产、利润、原料消耗。

如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字,都原封不动汇报出去吗?

显然,在如此多的变量之中,有很多变量是相关的,人们希望能够找出它们的少数代表来对它们进行描述,所以,需要把这种有很多变量的数据进行高度概括。

例如我们可以把所有指标归类,先算出主营务成本、三大营业费用,除去成本和费用之外就是营业利润。这样通过降维之后,原来众多的变量浓缩成了三个主成分。

案例:100 个学生的 6 门课的成绩,包括数学、物理、化学、语文、历史、英语如下:

目前的问题是,能否把 6 个成绩(变量),用 1 个、2 个综合变量来表示呢?

并且这一俩个综合变量能包含原数据大部分的信息。

一般我们想要了解学生的学习情况,都是将所有成绩求和后再进行排序(总分、排名),但这样只能反映学生总体的学习水平。

我们经过主成分分析之后,发现了一些内在的规律,用文科和理科这俩个变量就可以代替 6 门课程成绩。

当然,文科和理科这俩个因素,是我们人为给变量命名的。

了解了原理之后,再来看在几何图形上,主成分分析是如何实现降维的呢?

首先我们来看,一组三维数据是如何转化成二维数据的?

三维立体空间内的任意一点都可以用(X1、X2、X3)来表示,我们将这些点映射到二维平面上,这个平面就是(X1、X2)组成的平面。


经过这样的投射之后,三维变二维,这样我们就实现了三维数据到二维数据到转化。

同理,二维数据也可以转化成一维数据。

左边这个图是一个平面空间的二维表,平面上每个点都可以用坐标(X1、X2)来表示,按照逆时针旋转坐标系,旋转一定的角度之后得到:


对于二维平面的数据,我们将X1轴、X2轴先平移,再同时按逆时针方向旋转一定的角度,得到新坐标轴(C1、C2)。


在旋转的过程中我们尽量让数据在 C1 方向上的方差最大,所以在新坐标中,数据的发散程度主要在 C1 方向上,C1 是原始数据变差最大的方向,而在 C2 方向上,数据相对集中。

所以主成分分析在几何意义上,就是【选择坐标轴,使数据在这个坐标轴上的方差最大】。
 


SPSS实操:主成分分析的经典案例

 


SPSS实操:用主成分分析法确定权重

 


SPSS实操:用主成分分析法确定综合盈利

 


第十二章:因子分析

 


统计基础:因子分析原理

因子分析也是多元方法中常见的一种,和主成分分析一样,也是采用降维的思想,而且已经被各行业广泛应用。

虽然因子分析和主成分分析都是降维的思想,但在实际应用中,这俩种方法又有自己的不同的侧重点。

因子分析:

  • 主要思路:降维、简化数据结构
  • 目的:将(具有错综复杂关系的)变量综合为(数量较少的)因子,以再现原始变量与因子的关系。

案例:100个学生的 6 门成绩:


我们如何评价这些学生的表现呢?

在这里,你可以客观的观测到每一科目的成绩,但你可以直接看到理科、文科的情况吗?

6个科目的成绩上我们观测到的外在表现,隐藏在其中的公共因子你找到了吗?

如果我们针对 6 个科目做降维处理,会得到什么结果呢?

最终我们通过分析,找到评价学生成绩的俩个内在因素:文科、理科,这就是我们的因子分析。


案例:为了了解学生的学习能力,观测了 n 个学生 p 个科目的成绩,用 X1,…Xp 表示 p 个科目(如语文、英语)

我们对这些资料进行归纳分析,得出全部科目所共有对因子有 m 个,如数学推导因子、记忆因子、计算因子等等。

  • 数学推导因子能反映学生的推理能力
  • 记忆因子能反映学生的记忆能力
  • 计算因子能反映学生的计算能力水平

总结:对于因子分析的原理可以这样理解:

  • 人的心理结构具有层次性,即分为外显和内隐。一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。

  • 反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜在的)

这种内在规律的探索,就是因子分析所能做的。
 


SPSS实操:影响国民经济发展的因子分析

 


SPSS实操:因子分析在人才招聘中的应用

 


第十三章:聚类分析

 


统计基础:认识聚类分析

案例:鸡尾酒会上的聚类

我们知道,敬酒是人与人之间表情达意的一门艺术,那它和聚类又有什么关系呢?

假设我们正在参加一个国际学术会议的招待会,它是以鸡尾酒会的方式进行,人们端着酒杯,不断流动,通过敬酒和干杯来结识朋友。

在酒会上,你可能会听到很多的敬酒的觥筹交错,常用的敬酒词汇:某某同事、同学、同乡、一同下过乡、一起扛过枪。

善敬酒者都是聚类专家,总是能抓住自己与被敬酒者的相同点,说对方和自己聚在同一个簇,让对方无法推托。

  • 簇:一类事物或一群事物。

能干点聚类专家善于在细微处见功夫,善于找出某些子集的特色,把大集合中的对象凝聚成若干个特色小簇,小集合,使得簇内相似度大,簇间相似度小。


聚类技术的应用非常广泛:中文中有很多类似同某的词汇,如同学、同乡、同志、同事、同袍,还有数学上的同态、同构,拓扑学中的同胚等等。都是聚类技术的具体应用。

同学、同乡等名词,对应英文单词 Attribute(属性),在敬酒技巧中可泛称为 同A技巧,用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离。

  • 敬酒就是通过套近乎使自己进入到某个簇中。

上面的案例我们做成图表,就是类似下面这样的结构图,在图中,横轴代表籍贯,纵轴代表班级,图中的任意一点代表一个学生。


比如绿色曲线圈起来的点,他们在横轴投影相近,说明是同一籍贯,也就是同乡。

而对于紫色曲线圈起来的点,在纵轴上投影相近,说明他们处在同一班级,所以称为同学。

红圈中的点组成的 3 组数据,在横轴和纵轴上的投影都很接近,所以他们既是同学也是同乡。

这是对二维数据的分析,多维的情形可能稍微会复杂一些,但基本的思路是同样的。

案例:假设我们想要把中国的县分成若干类。俗语说,物以类聚,人以群分,但什么是分类的依据呢?

分类依据:

  • 我们可以按照自然条件把中国的县分成若干类,比如考虑降水、土地、日照、湿度等方面。
  • 也可以考虑人文条件把中国的县划分成若干类,比如考虑收入、教育水准、医疗条件、基础设施等指标

需要说明的是,对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类。

聚类和分类的区别。

  • 分类:按照某种标准,给对象贴标签,再根据标签来区分归类
  • 聚类:事先没有标准,而是通过某种成因分析找出事物之间聚集的原因

区别一:

  • 分类是按照事先定义好的分类体系进行分类,例如按照行业的标准分类,服装分为衬衫、牛仔裤、羽绒服等。
  • 聚类不存在分类体系,类别在聚类过程中自动生成,例如搜索引擎结果后聚类(元搜索)。

区别二:

  • 聚类是主动的,分类是被动的,主动与被动的差别,是聚类和分类的最大区别。

比如学术鸡尾酒会,常看到一群学子围住一个学术带头人,也常看到几位研究者坐在角落,一边品酒,一边在草稿上写写画画,讨论问题,偶然也有不善交际的离群点,远离人群。

在这里,影响聚群的不是万有引力或电磁力,也不是强、弱相互作用,而是学术思想的凝聚力,是人格魅力。

鸡尾酒会上没有人指挥谁谁应该到哪里,它所遵循的是物以类聚,人以群分的道理,所以,聚类对象是主动的、自发的。

而分类代表了人们主观意志,对分类过程的监督,它是被动的划分类别。

聚类分析的目的。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,将相似的事物归类,从而简化分析对象。
 


统计基础:聚类分析概述

在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。

随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验难以确切的进行分类,于是人们逐渐的把数学工具引用到了分类学中,之后就形成了【聚类分析】。

我们已经知道了聚类分析是统计学中,研究物以类聚的一种方法。

它是通过建立一种分类,将一批样本按照在性质上的亲疏程度,在没有先验知识的情况下自动进行分类的过程。

这里的【亲疏程度】指的是数据间的相似程度或者差异程度。距离越近,越亲密,聚成一类,距离越远,越疏远,分别属于不同的类。

其中:类内个体具有较高的相似性,类间的差异性较大。

聚类分析有哪些类型呢?

一般情况下聚类分析分为:

  • 系统聚类或分层聚类
  • 快速聚类
  • 俩步聚类

系统聚类和K均值聚类这俩种常见的方法,并且对它们的表现做一个简单的评估。

系统聚类是将若干个体分成若干类的方法。

其基本思想是:

  • 先将每一个体各看成一类,而后规定类与类之间的距离,选择距离最小的一对合并成新的一类。
  • 计算新类与其他类之间的距离,再将距离最近的俩类合并
  • 这样每减少一类,直至所有的样品合为一类为止

系统聚类不需要事先规定好分几类,开始时,有多少点就是多少类,比如在这个案例中有 10 个点,开始就是 10 类。

显然,越是后来合并的类,聚类就越远。

K均值聚类,也叫快速聚类,它要求事先说好要分多少类,所以看起来有些主观。


假定你说分 3 类,K均值聚类要求你事先确定 3 个点为聚类种子(SPSS软件自动为你选种子)也就是说,把这 3 个点作为三类中每一类的基石。

而后,根据和这三个点的距离远近,把所有点分成三类,再把这三类的中心(均值)作为新的基石或种子(原来的种子就没有用了),重新按照距离分类。

如此叠代下去,直到达到停止叠代的要求。

K均值聚类的原理。

可以看到图中一共 7 个点,我们想把这 7 个数据最终划分为 2 类。

图一:

首先从这 7 个数据任意选择 2 个对象作为初始聚类中心。

当然这 2 个对象最好说凭经验和图像判断可能的聚类中心。

图二:

而对于所剩下的 ABCDE 5个对象,根据它们与这些聚类中心的距离,分别将它们分配给与其最相似的聚类中心。

图三:

而后再计算每个所获新聚类的聚类中心,这个聚类中心所该类中所有对象的均值。

这样我们就完成了一次迭代。

图四:

不断重复这一过程直到中心的迭代标准达到要求时,聚类过程结束。

这 2 组聚类具有的特点就是:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

刚才我们提到,在初始确定聚类中心的时候,虽然是任意选取了 2 个点作为聚类中心,但这俩点也是凭经验判断出来的,所以选好凝聚点,初始分类之后,我们需要判断这样形成的分类是否合理,如果合理,那就可以继续程序,如果不合理,就更改聚类中心,直到达到我们想要的结果为止。

系统聚类和K均值聚类的区别。

001 系统聚类:通常用于数据量较少的情况下,如果数据太太,系统聚类会很慢很低效,系统聚类无需事先指定分成几类。

002 K均值聚类:K均值聚类法占内存少,计算量小,处理速度快,特别适合处理大样本数据,而且数据量越大,准确性越高,K均值聚类需要我们事先指定聚成几类。
 


SPSS实操:系统聚类案例分析

 


SPSS实操:K均值聚类案例分析

 


附加SPSS工具下载:

  • 环境:Mac or Win
     

Mac SPSS

链接:SPSS Statistics 26.0.0.2 Mac中文版

密码:2ulm

补丁:SPSS Statistics补丁

 


Win SPSS

链接:SPSS Statistics 26 中文版

密码:esv0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值