excel统计分析——多元相关分析

本文介绍了Excel中如何运用生物统计学原理进行复相关系数、偏相关系数以及典型相关系数的计算,包括这些统计方法的概念、计算步骤、检验方法以及在多变量关系分析中的应用。
摘要由CSDN通过智能技术生成

参考资料:生物统计学

用excel求矩阵特征值和特征向量.docx-原创力文档

        多个自变量间的相关分析,可以直接计算两个变量间简单相关系数(即直线相关系数),也可以在保持其他变量不变的情况下计算两个变量之间的偏相关系数,还可以计算一个变量与一组变量间的负相关系数,或把变量分为两组来计算典型相关系数。

1、复相关系数

        负相关分析时研究多个自变量与因变量间的总相关的统计分析方法。多个自变量与因变量间的相关系数称为复相关系数(multiple correlation coefficient),表示一组自变量与因变量间关系的总的密切程度。以大写字母R表示。

        由于m个自变量对y的平方和为U_yU_y占y的平方和SS_y的比例越大,则表明y和这m个自变量的关系月密切。所以复相关系数定义为多元线性回归平方和与总变异平方和比值的平方根,即

R=\sqrt{\frac{U_y}{SS_y}}

        R的取值范围为[0,1],且随m的增大而增加,其值比任何一个自变量与y的相关系数的绝对值都大。复相关系数的检验使用F检验。

        原假设:H_0:\rho=0

        备择假设:H_A:\rho\neq 0

        检验统计量:F=\frac{df_2R^2}{df_1(1-R^2)}=\frac{(n-m-1)R^2}{m(1-R^2)}

        服从df1=m,df2=n-m-1的F分布。R的显著性与多元回归方程的显著性一致。

        复相关系数的平方叫作决定系数,用R^2表示。决定系数表示的是回归平方和占y的总平方和的比例,即y的总变异种可以用自变量的变化来解释的部分。

2、偏相关分析

(1)偏相关系数

        在多个变量间的关系研究中,由于变量间相互影响,要正确反映两个变量间的关系,需消除其他变量的影响,这种排除其他变量影响后的两个变量之间的相关分析称为偏相关分析。在其他变量保持不变的情况下表示两个变量间相关程度的指标称为偏相关系数(partial correlation coefficient)。与之对应,未排除其他变量影响的两个变量间的相关系数称为简单相关系数(simple correlation coefficient)。

        偏相关系数用带下标的r表示,为区分方便,偏相关系数的下标后面“.”,而简单相关系数不加“.”。例如,r_{12}表示x1与x2的简单相关系数,r_{12.}表示去除其他变量影响后x1与x2的偏相关系数。

(2)偏相关系数的计算

        计算系数时,先计算简单相关系数矩阵R,在计算其逆矩阵R^{-1},然后使用R^{-1}中的元素计算偏相关系数:设R=(r_{ij})R^{-1}=(s_{ij}),则

r_{ij.}=-s_{ij}/\sqrt{s_{ii}s_{jj}}

(3)偏相关系数的检验

        偏相关系数的检验和简单相关系数的检验类似,用t检验。

        零假设:H_0:\rho_{ij.}=0

        备择假设:H_A:\rho_{ij.}\neq 0

        检验统计量:t=r_{ij.}\sqrt{n-m-1}/\sqrt{1-r_{ij.}^2}

        服从df=n-m-1的t分布。

excel操作下:

3、典型相关分析

        两组具有联合分布的变量x1,x2,...,xp和y1,y2,...,yq之间的而相关关系,可以通过分别对两组中的变量进行配对求其pq个简单相关系数来分析,但多个值千差万别不好分析,而且不容易抓住问题的核心。实际工作中大量的实际问题(如形态指标和功能指标),需要把变量之间的联系扩展到两组随机变量之间的相互依赖关系上,典型相关分析(canonical correlation analysis)就是为了解决此类问题而提出的统计方法。

(1)相关分析的基本思想

        典型相关分析的基本思想是利用线性无关的变量组合来说明两组变量间的关系,保证变量组合间有最大的相关性。这样的变量组合最多有min(p,q)组,但其相关性不一定显著。典型相关分析就是找出所有可能的变量组合,并识别出相关性显著的组合。

        具有显著相关性的线性组合称为典型变量(canonical variable),两者之间的相关系数称为典型相关系数(canonical correlation coefficient)。这种用典型相关系数来代表两组变量之间相关系数的方法称为典型相关分析(canonical correlation coefficient)。

(2)典型相关分析的数学描述

        如果数据已经过标准化处理,则协方差矩阵S就是相关系数矩阵R。如果a=(a_1,a_2,...,a_p)'b=(b_1,b_2,...,b_q)'是非零向量,则可构建原变量的线性组合U、V:

U=a_1x_1+a_2x_2+...+a_px_p=a'X

V=b_1y_1+b_2x_2+...+b_qy_q=b'Y

        U、V的均值\mu_U=\mu_V=0,方差为

\sigma_U^2=a'S_{xx}a

\sigma_V^2=b'S_{yy}b

        U、V相关系数为:

r_c=\frac{a'S_{xy}b}{\sqrt{a'S_{xx}a}\times \sqrt{b'S{yy}b}}

        为保证结果的唯一性,取U、V的方差\sigma_U^2=\sigma_V^2=1。于是

r_c=a'S_{xy}b

        根据典型相关分析的基本思想,当U、V相关系数r_c取最大值时,U、V是一对典型变量,r_c是其典型相关系数。问题变成求r_c的最大值和对应向量a、b的问题。这里介绍通过特征矩阵求解r_c和对应向量a、b的方法。

        特征矩阵A和矩阵B为

A=S_{xx}^{-1}S_{xy}S_{yy}^{-1}S_{yx}

B=S_{yy}^{-1}S_{yx}S_{xx}^{-1}S_{xy}

        其中,A是p×p阶矩阵,B为q×q阶矩阵。可以证明矩阵A和B具有相同的非零特征根,且k=rank(A)=rank(B)。

        如果矩阵A或矩阵B的第i个非零特征根\lambda_i(i=1,2,...,k;\lambda_1\geqslant \lambda_2\geqslant ...\geqslant \lambda_k),矩阵A属于\lambda_i的特征向量为a_i=(a_{i1},a_{i2},...,a_{ip})'和矩阵B属于\lambda_i的特征向量b_i=(b_{i1},b_{i2},...,b_{iq})',则:

U_i=a_{i1}x_1+a_{i2}x_2+...+a_{ip}x_{p}=a_i'X

V_i=b_{i1}y_1+b_{i2}y_2+...+b_{iq}y_q=b_i'Y

为第i对典型变量,其对应的典型相关系数为特征根\lambda_i的平方根:

r_{ci}=\sqrt{\lambda_i}

(3)典型相关系数的检验

        典型相关系数的检验用Wilks Λ检验法。将k个典型相关系数按大小顺序排列,r_{c1}\geqslant r_{c2}\geqslant ...\geqslant r_{ck},并依次进行检验。对第i个典型相关系数r_{ci}进行检验时,假设H_0:r_{ci}=0

\Lambda_i=\prod _{j=1}^k(1-r_{cj}^2)

t=1/ \sqrt{\frac{(p-i+1)^2(q-i+1)^2-4}{(p-i+1)^2+(q-i+1)^2-5}}

检验统计量F=\frac{1-\Lambda_i^t}{\Lambda_i^t}\times \frac{df_2}{df_1}

其中:df_1=(p-i+1)(q-i+1)

df_2=(n-(p+q+3)/2)/t-(p-i+1)(q-i+1)/2+1

统计量近似服从第一自由度为df1,第二自由度为df2的F分布。如果检验r_{ci}达到显著以上水平,则第i对典型变量U_i,V_i显著相关。

  • 18
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值