数据分析基础 - 统计学

学习资料:可汗学院公开课:统计学

1. 集中趋势与离散趋势

通常一批数据,先看他们的描述统计(可画出箱型图),即看集中趋势和离散趋势。

集中趋势:

集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值。统计学中常用平均数来描述一组变量值的集中位置或平均水平。常用的统计量指标有算数均数、几何均数、中位数和百分位数。
1)算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。
2)几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
3)中位数:适用于偏态分布资料和一端或两端无确切的数值的资料。是第50百分位数
4)百分位数:为一界值,用以确定医学参考值范围。

离散趋势:

离散趋势是反映数据的离散变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。
1)极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。
2)四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。
3)方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。
4)变异系数:多用于观察指标单位不同时,可消除因单位不同而不能进行比较的困难。

总结:

常用均数和标准差描述正态分布的集中和离散趋势;用中位数和四分位间距描述偏态分布的集中和离散趋势。

2. 总体方差(标准差)和样本方差(标准差)

标准差主要是为了统一单位,更直观。例如方差的单位是 米 2 米^2 2,标准差是米。
在这里插入图片描述
很多书上都会把除以n-1的标准差叫做样本标准,其实会给很多人造成误解。其实这个样本标准差的目的是用于估计总体标准差。
你可能会疑惑,那我什么时候标准差除以n还是n-1呢?那就要看你使用标准差的目的是什么。

  • 如果你只是想计算一个数据集的标准差,那么就除以n,例如你有100个毕业与清华人的收入,只是想了解这100个人构成的数据集的波动大小,那你就用除以n的标准差公式。
  • 如果你想把这100个人当成一个样本,用这个样本来估计出总体(所有毕业与清华人的收入)的标准差,那么就除以n-1的标准差公式。

3. 随机变量与概率密度函数

随机变量

随机变量是表示随机现象各种结果的变量,可以认为是随机过程映射到数值的函数。随机变量是取值有多种可能并且取每个值都有一个概率的变量,它分为离散型和连续型两种,离散型随机变量的取值为有限个或者无限可列个(整数集是典型的无限可列),连续型随机变量的取值为无限不可列个(实数集是典型的无限不可列)。

离散型随机变量与概率分布

描述离散型随机变量的概率分布的工具是概率分布表。
在这里插入图片描述
在这里插入图片描述

连续型随机变量与概率密度函数

把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为:
在这里插入图片描述
其中μ和 σ 2 σ^{2} σ2分别为均值和方差。现实世界中的很多数据,例如人的身高、体重、寿命等都近似服从正态分布。
另外一种常用的分布是均匀分布,如果随机变量x服从区间[a,b]内的均匀分布,则其概率密度函数为:
在这里插入图片描述

4. 伯努利分布、二项分布及泊松分布

伯努利分布

伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,是最简单的二项分布。介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)。
伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
P(X=1) = p;
P(X=0) = 1 - p;
均值E = p
方差V = p(1-p)

二项分布(Binomial distribution)

二项分布是一种离散概率分布,表示在n次伯努利试验中,有k次成功的概率。
P(X=k) =
假设B1,B2,,,Bn为n次独立的伯努利试验,根据期望和方差的公式:
二项分布的期望为:
E(B1 + B2 + … + Bn) = nE(B1) = np
方差:
V(B1 + B2 + … + Bn) = nV(B1) = npq =np(1-p)

泊松分布(Poisson distribution)

二项分布的命名是因为有成功和失败两项,泊松分布则是根据泊松这个人来命名的。它也是离散概率分布,与稀有事件的发生有关。
在这里插入图片描述

其实泊松分布就是二项分布的极限情况。当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。

5. 大数定理

概念其实很简单,也就是样本数量足够多时,样本均值趋近于总体均值,或者说随机变量的期望值。
拿我们最熟悉的投色子举例,游戏规则是投中1点获得1元,投中2点获得2元,以此类推。
那么,这个事件的期望是多少呢?
显然是:
1 × 1 / 6 + 2 × 1 / 6 + 3 × 1 / 6 + 4 × 1 / 6 + 5 × 1 / 6 + 6 × 1 / 6 = 3.5 1\times 1/6+2\times 1/6+3\times 1/6+4\times 1/6+5\times 1/6+6\times 1/6=3.5 1×1/6+2×1/6+3×1/6+4×1/6+5×1/6+6×1/6=3.5
这个期望3.5代表什么意思呢?
也就是说,只要你一直玩下去,你每次游戏的预期收益是3.5元。可能你某次赢了1元,某一次赢了6元,只要你长期投下去, 你平均下来每次就赢3.5元。
我们可以通过比较成本投入和期望收益,你就能知道这件事情值得不值得。
如果每玩1次需要缴纳5元,那么你玩1万次,你投入是5万元,那么你的收益将是3.5万元。显然不会有一个人玩1万次,但是长久下来,累积人数肯定有1万次,那么怎样都是商家收益。

6. 中心极限定理

参考链接:中心极限定理
中心极限定理是说:

  • 样本的平均值约等于总体的平均值。
  • 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且样本平均值的分布呈正态分布。

中心极限定理和大数定律的区别

(1)大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。

(2)中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,σ^2/n为方差。(就像上面所说,如果用样本估计总体标准方差则除以n-1)

(3)综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小。

  • 直观上来讲,想到大数定律的时候,脑海里浮现的应该是一个样本,然后n就是该样本的数量,也就是样本数量足够多时,样本均值趋近于总体均值

  • 想到中心极限定理的时候脑海里应该浮现出总体中随机抽取了很多个样本(例如m个),然后n就是每个样本的样本大小(大小都一样的),求每个样本的均值,每一个总体的样本平均值都会围绕在总体的整体平均值周围。然后就有m个均值,该m个均值的分布趋近于均值为总体平均值μ,方差为 σ 2 / n σ^2/n σ2/n的正态分布(不管总体的分布是如何的),即随着样本容量n变大,抽样分布标准差越小,越收拢;

7. 正态分布

在这里插入图片描述
在这里插入图片描述
z分数(z-score):
在这里插入图片描述
其中μ为总体平均值,X-μ为离均差,σ表示总体标准偏差。z分数是衡量数据点与均值之间相差了多少个标准差。并不是只有正态分布可以有计算z分数,任何分布都可以计算,只要有均值和标准差。

经验法则:

在这里插入图片描述
常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。

左偏/右偏分布

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在实际中,一家公司薪资的分布通常是右偏分布,而银行的风险风险分布是左偏分布(低风险)。

8. 抽样分布

8.1 n>30,抽样分布可认为是正态分布

  1. 若一个成年男性日均喝水2L,标准差为0.7。现在有50个成年男生出去旅游,若你带了110L水,问水喝光的概率是多少?

解:知道总体分布的均值和标准差,那么多次从总体抽取50个样本,其样本均值组成了均值为μ,方差为 σ 2 / n σ^2/n σ2/n的正态分布。
所以样本标准误差为 σ / s q r t ( n ) = 0.7 / s q r t ( 50 ) = 0.099 σ/sqrt(n) = 0.7/sqrt(50) = 0.099 σ/sqrt(n)=0.7/sqrt(50)=0.099,均值为50。110L水,平均每人喝2.2L,即求P(x>2.2)。由Z分数公式得(2.2-2)/0.099 = 2.02,就是计算在大于均值2.02个标准差的面积。查Z分数表知Z(2.02) = 0.9783(这个是小于2.02个标准差的面积),所以P(x>2.2) = 0.0217

  1. 从农场的200,000个苹果中抽样36个,该36个苹果均重112g,标准差为40。问这200,000个苹果的平均重量在100g到124g之间的概率是多少?

解:该36个苹果均重112g,标准差为40,这个是样本标准差S并不是样本均值抽样分布的标准差,所以不能用 σ / s q r t ( n ) = 40 σ/sqrt(n)=40 σ/sqrt(n)=40来求总体标准差,而是应该直接样本标准差S来估计σ,这里直接约等于S,即40。
知道总体标准差就知道样本标准误差(样本均值抽样分布的标准差): 40 / s q r t ( n ) = 40 / 6 = 6.67 40/sqrt(n)=40/6=6.67 40/sqrt(n)=40/6=6.67,均值为112,Z值: ( 124 − 112 ) / 6.67 = 1.8 (124-112)/6.67=1.8 (124112)/6.67=1.8,查表即可。

置信水平与置信区间

如何通俗地解释置信水平与置信区间

从某学校抽取250教师,其中142人认为电脑是必备教学工具。

  1. 计算一个99%置信区间,其中教师认为电脑是必备工具。
  2. 在保持99%的置信水平下,如何缩减置信区间?
    在这里插入图片描述
    总结步骤:
  3. 求样本的平均值和标准误差
  4. 确定置信水平,查Z表格,确定Z值
  5. 确定置信区间的上下限

通常来说,置信水平越高,置信区间越宽;
若保持置信水平,缩减置信区间,所以得通过减少标准误差,即增大样本数即可。

8.2 n<30,即小样本容量下,抽样分布采用t分布

步骤都一样,只是确定置信水平后,查的是t分布表格。

总结:

1. z 统计量和t 统计量

在这里插入图片描述

2. t分布

  • 在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
  • t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。(为什么会和正态分布有区别?用样本标准差估计总体标准差是一个原因。)

9. 假设检验和p值

在这里插入图片描述
p-值描述了当原假设为真时,样本统计值及更极端值出现的概率。若此概率很小,根据小概率原理,认为原假设为真时不会出现这样的统计值,从而拒绝原假设。
但这样做是有风险的,即原假设为真时我们却拒绝了原假设(第一类错误)。其犯错概率等同于p值。
我们用显著性水平描述我们愿意冒多大的风险犯这类错误。
当p-值<显著性水平,实际犯错风险<愿意承担的风险,拒绝原假设。

10. 卡方分布与卡方检验

11.1 卡方分布

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和 Q = ∑ i = 1 n ξ i 2 Q=\sum_{i=1}^nξ_i^2 Q=i=1nξi2 构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均数或方差不同就是另一个正态分布一样,自由度不同就是另一个卡方分布。
在这里插入图片描述
在这里插入图片描述
由上图可见当自由度n越大,密度曲线越趋于对称,趋近于正态分布;n越小,越不对称,n=1,2时曲线是单调下降趋于0。(原因:n=1就相当于在标准正态分布N(0,1)中随机抽取一个样本,那这个样本靠近均值0的概率就很高很高,然后再平方一下,靠近0的概率就更高了。)当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。

性质:
在这里插入图片描述

11.2 卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的公式为:
在这里插入图片描述
其中,A为实际值,T为理论值。

x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

  • . 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
  • . 差异程度与理论值的相对大小

注意:自由度V=(行数 - 1) * (列数 - 1)。对四格表,自由度V = 1。

步骤:

  1. 建立假设检验 H0,H1;
  2. 计算理论值 T R C T_{RC} TRC
    在这里插入图片描述
  3. 计算卡方值 X 2 = ∑ ( A − T ) 2 T X^2=\sum \frac {(A-T)^2}{T} X2=T(AT)2
  4. 根据自由度和显著水平,查卡方分布表,得到临界值。若卡方值 X 2 X^2 X2>临界值,即P<显著水平,则差异显著有有统计学意义,拒绝H0,接受H1。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

11.3 卡方检验校正

在这里插入图片描述
当不是四格表时,例如RXC=3X3,发现有些格子理论频数大于1小于5,可以考虑将某些列或行合并成一行;例如等级1,2,3可以变成1,2(2和3合并)。

12. t 分布和t 检验

12.1 t 统计量

在这里插入图片描述

12.2 t 分布

在这里插入图片描述
在这里插入图片描述

  • 在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
  • t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。(为什么会和正态分布有区别?用样本标准差估计总体标准差是一个原因。)

12.3 t 检验

T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
在这里插入图片描述
在这里插入图片描述
对于 t 检验,不管是独立样本还是配对的 t 检验,目的都是为了判断两类样本在某一变量上的均值差异是否显著,这也是构造 t 检验的作用。

12.4 t 检验和z 检验的区别

上面也有提到,Z统计量和T统计量的区别。

概念区别:T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数平均数的差异是否显著。
区别一:z检验适用于变量符合z分布(正态分布,对于z分布的所有变量X,均可转换为u分布即标准正态分布)的情况,而t检验适用于变量符合t分布的情况;
区别二:t分布是z分布的小样本分布,即当总体符合z分布时,从总体中抽取的小样本符合t分布,而对于符合t分布的变量,当样本量增大时,变量数据逐渐向z分布趋近;

13. F分布和F检验

13.1 F分布

在这里插入图片描述
自由度为 m, n 的 F 分布的密度函数如下图:
在这里插入图片描述
可见对给定 m = 10, n 取不同值时 f m , n ( x ) f_{m,n}(x) fm,n(x)的形状, 我们看到曲线是偏态的, n 越小偏态越严重。

在这里插入图片描述
若 F ∼ F m , n F_{m,n} Fm,n, 记 P(F> c)= α \alpha α, 则 c= F m , n ( α ) F_{m,n}(\alpha ) Fm,n(α) 称为 F 分布的上侧 α \alpha α 分位数 (见上图). 当 m, n 和 α \alpha α 给定时, 可以通过查表求出
F m , n ( α ) F_{m,n}(\alpha ) Fm,n(α)之值, 例如 F 4 , 10 ( 0.05 ) = 3.48 F_{4,10}(0.05)=3.48 F4,10(0.05)=3.48 F 10 , 15 ( 0.01 ) = 3.80 F_{10,15}(0.01)=3.80 F10,15(0.01)=3.80 等。

13.2 F检验

F检验,也称方差比率检验、方差齐性检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用 t 检验,若不等,可采用 t’ 检验或变量变换或秩和检验等方法。要判断两总体方差是否相等,就可以用F检验。
在这里插入图片描述

13.3 方差的同质性检验(方差分析)

在这里插入图片描述
首先,从以上数据可看出,不仅组与组之间存在不同,而且同一组内部也存在着不同。组与组之间的差异称组间变异(variation between classes),反映在各组的平均数不同。同一组内部被试(个体)之间的差异称组内变异(variation within class),反映在每一个人的分数不同。

其次,从组间变异看,表1的组间变异大于表2。如表1中A、B、C的组平均数与总平均数分别相差1、3、2分,表2中的三组平均数总平均差1分。

再次,从看组内变异看(各组原始分与组平均数比较),表1各组原始分与组平均基本差1分,表2各组原始分与组平均数最大有4分之差。

综上所述,表1组间变异较大而组内变异较小,表2组间变异较小而组内变异较大。可见,组间变异的大小与组内变异的大小并非正比关系。这一现象表明,如果组间变异相对较大,而组内变异相对较小,则各组平均数的变异越明显,即若组间变异与组内变异的比率越大,各组平均数的差异越大。因此,通过组间变异和组内变异比率大小来推论几个相应平均数差异显著性的思想就是方差分析的逻辑依据或基本原理。所以说,方差分析是将实验中的总变异分解为组间变异和组内变异,并通过组间变异和组内变异比率的比较来确定影响实验结果因素的数学方法,其实质是以方差来表示变异的程度。

在方差分析中,引起组间变异的主要原因是实验者所施加的实验条件和随机误差,这种随机误差是由于一些偶然因素引起的。引起组内变异的主要原因则是被试间的个体差异和实验误差等,也属随机因素的影响,因此也可看作是一种随机误差。

总变异的分解:
总变异 = 组间变异+组内变异
组间变异 = 实验条件 + 随机误差
组内变异 = 个体差异 + 实验误差 。组内误差都是随机误差。

如果组间与组内变异均为随机误差时,二者的比率为1,即实验因素的影响较小,由此推论总变异不存在差异。当二者的比率较大时,则实验因素产生影响的可能性增大。

假设因素A有s个水平A1,A2……,As,每个水平下进行nj次独立试验,样本总数n
观测变量总离差平方和 = 组间离差平方和 + 组内离差平方和,表述为:SST=SSA+SSE。

  • 组内差异——测量误差、个体差异
    SSE(误差平方和)各个水平下,样本观察值与样本均值差异的平方和
    组内自由度 dfe=n-s
  • 组间差异——不同实验条件处理
    SSA(因素A的效应平方和)各个水平下样本平均值与数据总平均差异的平方和
    组间自由度 dfa=s-1

均方 = 离差平方和 / 自由度 SA=SSA/dfa SE=SSE/dfe
在这里插入图片描述

单因素方差分析基本步骤
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验

  • F>F0.05(dfa,dfe) ; 组间均方>>组内均方,来自不同正态总体 ; 拒绝H0
  • F<F0.05(dfa,dfe) ; 组间均方<<组内均方,来自相同正态总体 ; 接受H0

3、计算检验统计量的观测值和概率P值
4、给定显著性水平,并作出决策

多因素方差分析
单独效应 ——其他因素固定,某一因素不同水平之间均数的差别
交互效应 ——某因素的单独效应,随另一因素水平而变化,且不能用随机误差解释。
在这里插入图片描述
1、提出假设
在这里插入图片描述
2、F值检验
在这里插入图片描述
方差分析是比较两个以上平均差异显著性的方法。其逻辑思想是将总变异分解成组间(或处理间)变异和组内(或误差)变异,通过比较组间与组内变异率的大小来确定均数差异是来自实验因素或处理,还是源自随机误差。引起组间的变异原因主要实验施加的影响因素(或条件)和随机误差,引起组内变异的原因则为随机误差(其中含个体变异和实验变异)。根据一次实验因素的个数分为单因素实验和多因素实验。

14. 相关系数

统计学的相关系数经常使用的有三种:皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数。

14.1 Pearson相关系数

皮尔逊相关系数通常用r或ρ表示,度量两变量X和Y之间相互关系(线性相关)。
皮尔森相关性系数的值等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积( σ X σ_X σX, σ Y σ_Y σY)。
在这里插入图片描述
公式的分母是变量的标准差,这就意味着计算皮尔森相关性系数时,变量的标准差不能为0(分母不能为0),也就是说你的两个变量中任何一个的值不能都是相同的。如果没有变化,用皮尔森相关系数是没办法算出这个变量与另一个变量之间是不是有相关性的。

数据要求

  1. 两个变量都是连续变量
  2. 正态分布
    它是协方差与标准差的比值,并且在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而t检验是基于数据呈正态分布的假设的。
  3. 实验数据之间的差距不能太大
    比如:研究人跑步的速度与心脏跳动的相关性,如果人突发心脏病,心跳为0(或者过快与过慢),那这时候我们会测到一个偏离正常值的心跳,如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。

14.2 斯皮尔曼(spearman)相关系数

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。

斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
  在这里插入图片描述

14.3 肯德尔(kendall)相关系数

肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。

分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量

举个例子。比如评委对选手的评分(优、中、差等),我们想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。
R = ( P − ( n ∗ ( n − 1 ) / 2 − P ) ) / ( n ∗ ( n − 1 ) / 2 ) = ( 4 P / ( n ∗ ( n − 1 ) ) ) − 1 R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1 R=P(n(n1)/2P))/(n(n1)/2)=(4P/(n(n1)))1

14.4 三大相关系数使用场景

参考例子

就适用性来说,kendall > spearman > pearson ,在考察两两变量间相关关系时,应了解两变量的变量类型以及是否有正态性,然后决定使用哪个系数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值