【多元统计分析】课程总结

参考文献:《多元统计分析》高慧璇 编著 ,北京大学出版社
刚考完,做个总结,意在搭个学习《多元统计分析》的简单架子,方便日后复习,虽然只学了一点皮毛,但是架不住老年人的脑子(“好记性,不如烂blog”)。其中,具体内容和公式不再一一陈述(据说,Latex是阻止人类文明进步的绊脚石。。)
一句有用的废话:学习多元统计的时候,要多思考一元统计。
一元统计里面正态分布是重中之重,这是因为后续的参数估计、假设检验等都是围绕它展开的,具体如:卡方分布、F分布、t分布等等。那么对应到多元中,多元正态分布也是核心,类似地衍生出威沙特(Wishart)分布、威尔克斯(Wilks)分布、霍特林(Hotelling) T 2 T^2 T2分布(对应于一元的卡方分布、F分布、t分布)。其中,会有很多细节,比如说霍特林分布是把一元的t统计量平方后再拓展到多元上的(这并不是很难理解,因为一元t统计量的分母需要开根号,对应到多元上是没有根号的,所以想到平方。

关于似然比检验

在一元统计里面,似然比检验似乎并不太重要,但是在多元统计里,它可以用来各种检验(均值向量的检验、协方差阵的检验等等),主要理论是似然比原理。似然比统计量的构造:顾名思义,要有似然函数和比值,分子和分母差不多是同一个似然函数,主要区别在于:似然函数中参数的取值范围,一个是原假设 H 0 H_0 H0成立时的子参数空间,另一个是全参数空间。
在这里插入图片描述
非中心的分布可以用来计算第二类错误( β \beta β,取伪错误);
矩阵的分布是指把矩阵拉直之后向量的分布,也就是说其实是没有矩阵的分布,只有向量的分布……
👻似然比统计量在样本容量n很大的时候,又会和卡方分布有着千丝万缕的联系……想不明白的话,可以想想一元做拟合优度检验的时候,峁诗松老师给了两种做法,一个是卡方,另一个就是似然比检验,两者等价,多元也适用。。。恕末将无能,只能解释到这里……

关于回归分析

在这里插入图片描述
值得注意的是,上面(4.1.2)和(4.1.3)虽然都是经典多元线性回归模型,文书上又用“或”连接,但是二者并不等价。(4.1.3)明显是比(4.1.2)要强的,因为(4.1.3)有分布,而(4.1.2)只是给出一些数字特征。
强有强的用处,(4.1.3)一般用于区间估计等(区间估计是需要知道分布才可以做的);
弱有弱的好处,(4.1.2)一般用于简单的点估计。
在这里插入图片描述
参数的最小二乘估计中有个帽子矩阵,名字由来是那个红色的式子,H像是给Y加了一顶帽子变成了 Y ^ \widehat{Y} Y ,所以称为帽子矩阵……

关于判别分析

这里值得注意的是,判别分析是在分好类之后进行的,而且各类的分布特征已知。这是区别于聚类分析的地方。
在这里插入图片描述
做判别分析之前,要先看一下:类与类之间是否有显著差异,不然就像“纠结是吃番茄好还是吃西红柿好”一样……
具体有距离判别法、贝叶斯判别法、费希尔判别法等。判别方法的结果是得到一个m维空间的划分,再看看新样品X是属于哪一个划分区域,然后可以知道它属于哪一个类。

  • 距离判别法的基本思想:样品和哪个总体距离近,就判它属于哪个总体,又称“直观判别法”。主要采用马氏距离。
    实际中,总体分布特征是未知的,于是一般会使用样本去估计未知参数(均指向量、协方差矩阵)。需要注意,像一元统计一样,总体方差是否齐性(是否相等) 会影响结果。于是,用来估计总体协方差的样本协方差也要分【 Σ 1 = Σ 2 \Sigma_1=\Sigma_2 Σ1=Σ2】和【 Σ 1 ≠ Σ 2 \Sigma_1\neq \Sigma_2 Σ1=Σ2】的情况。
    Σ 1 ≠ Σ 2 \Sigma_1\neq \Sigma_2 Σ1=Σ2】时:用合并的样本协方差阵去估计总体协方差阵;
    在这里插入图片描述
    Σ 1 = Σ 2 \Sigma_1=\Sigma_2 Σ1=Σ2】时:用各自的样本协方差阵即可。
  • 贝叶斯判别法:
    距离判别法只需要知道总体的一些参数或是特征(均指向量、协方差阵等)即可做,它没有考虑各个总体出现的机会(即先验概率)大小,也没有考虑错判损失。针对这些缺点,有了贝叶斯判别法,贝叶斯判别法需要先验概率、错判损失等等。
    贝叶斯判别法在一些特定的情况下,体现为广义平方距离判别法、后验概率判别法。具体来说,如果给定错判损失相等的前提,那么贝叶斯判别法就是后验概率判别法;进一步地,如果给定正态总体的前提,后验概率判别法就是广义平方距离法。
  • 费希尔判别法:
    主要思想是投影。将k组m元数据投影到某一个方向上,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分得开的方法借助于一元方差分析的思想。最后化简一下就是求组内离差阵和组间离差阵的广义特征值问题。

关于聚类分析

事先不知道研究问题应该分为几类,更不知道观测的个体的具体分类情况,聚类分析通过对观测数据分析处理,选定一个度量个体接近程度的量,确定分类数目,建立一种分类方法,并按照接近程度对观测对象给出合理的分类。
对一批观测对象,先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象进行判别归类。

  • 典型的有系统聚类法:开始每个对象各成一类,然后每次将最相似的两类合并(距离最近的两类),合并后重新计算新类与其他类的距离。这一过程一直继续直到所有对象归为一类为止。并类的过程可以用谱系聚类图描述。
    根据分类对象的不同,分为Q型(对样品)、R型(对变量)。
    类与类之间距离的定义有很多种,每一种都对应了不同的系统聚类法。

关于主成分分析

作用:降维,简化数据结构等。
它的本质是对变量做线性变换,并没有模型可言,这是区别于因子分析的地方(因子分析是有模型的,之后会详细列一列二者的区别和联系)。值得注意的是,通常不会取全部的主成分,只需要特征值比较大的那几个主成分即可近似地反映全部原始变量的信息。

  • 为什么是特征值这个量呢?
    因为第i大的特征值对应第i个特征向量,也就是第i个主成分的系数向量。而第i个主成分的方差等于 λ i \lambda_i λi.主成分的方差反映了的信息量,越大越好。特征值的所占比例,称为“贡献率”,反映了该特征值对应的那个主成分提取了原始变量的多少信息。至于累计贡献率的概念,可想而知,就是前m个特征值所占比例,含义是前m个主成分提取了原始变量(⭐这里注意一下,是指全部的原始变量,视作一个整体)的多少信息。
    上面⭐那里,很容易使人思考到:是不是应该还有一个量,用来反映某(几个)主成分提取了某个特定原始变量的信息?于是,有了下面的定义(7.1.3).其中主成分和原始变量的相关系数,被定义为“因子载荷量”(又称,因子负荷量),emmm,我总觉得这个名称是根据后面的因子分析来的,毕竟因子分析是主成分分析的推广,随着叫也不能说人家乱辈分……
    在这里插入图片描述
    note:从上面的描述中,应该很容易看出主成分之间是互不相关的(因为不同特征值对应的特征向量是互不相关的),这是一个很好的性质(原始变量之间是有可能相关的),这表示各主成分的信息互不重叠。
  • 确定需要多少个主成分的要求
    m个主成分所反映的信息 和 p个原始变量( 就是全部原始变量,和,部分杰出主成分代表)所提供的信息差不多;
    m个主成分又能够对数据所具有的意义进行解释。(是能解释的,肯定句,不是否定句。。不要小看这句话,我就被大牛老师问到了,还挺自信地说错了哈哈哈哈,记住这个教训 。—from some old people👴👴);

关于因子分析

因子分析是主成分分析的推广和发展,把多个变量综合为少数几个因子,以再现原始变量与因子之间的关系。
不过,具体写出来因子分析模型长得又很像 回归分析。。。
X i = a i 1 F 1 + a i 2 F 2 + . . . . . . + a i m F m + ε i X_i=a_{i1}F_1+a_{i2}F_2+......+a_{im}F_m+\varepsilon_i Xi=ai1F1+ai2F2+......+aimFm+εi
注意看上式的脚标,它暗示了很多东西: X i X_i Xi表示第i个变量; F 1 , . . . , F m F_1,...,F_m F1,...,Fm表示因子,脚标和i是无关的,也就是所有变量都会含他们(也可能不含,主要看系数),所以称他们为“公共因子”; ε i \varepsilon_i εi,也是因子,注意下脚标是依赖i的(也就是随变量的不同而不同,或者说一个变量有一个特殊因子),因此称作“特殊因子”。

  • 再说因子分析和回归分析有什么区别:
    回归分析模型: Y = β 0 + β 1 X 1 + β 2 X 2 + . . . . . . + β m X m + ε Y = \beta_0+\beta_1X_1+\beta_2X_2+......+\beta_mX_m+\varepsilon Y=β0+β1X1+β2X2+......+βmXm+ε
    因子分析模型中的因子是不可观测的,但也是随机的。而回归分析中的因变量和自变量都是可观测的,也是随机的。
  • 正交因子模型两个关键性的假设:
    特殊因子互不相关,故 D ( ε ) D(\varepsilon) D(ε)应该是一个对角阵;
    公共因子互不相关,且 D ( F ) = I m D(F)=I_m D(F)=Im(单位矩阵);
    特殊因子与公共因子互不相关,即 C O V ( ε , F ) = O p × m COV(\varepsilon,F)=O_{p\times m} COV(ε,F)=Op×m;(假设共有p个变量,m个公共因子)
    (虽然我是一只十足的菜鸟,但是我知道很多人用模型都是从来不管前提的,甚至不知道前提假设是什么……)
    在这里插入图片描述

主成分分析&因子分析

主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或是斜交);
主成分分析中主成分的个数和变量个数相同,它是将一组具有相关性的变量变换为一组独立的综合变量(实际中,一般选取部分主成分),而因子分析目的是用尽可能少的公因子,以便构造一个简单的因子模型;
主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表示成公共因子和特殊因子的线性组合。


一些乱七芭蕉的观察和想法……可以忽略不看
样本资料阵X
一般表示成n*p的矩阵,其中n是样本容量,p是特征(也就是一次观测需要看多少指标)。
不好理解的话,可以想想SQL、SPSS中的表格,不同行表示不同case,不同列表示不同指标(学号、姓名、班级等等),又称“设计矩阵”。

多元正态分布
它有很多个定义,要注意的是定义之间的区别。
比如说:下面这几种定义之中,联合密度函数的那个明显是较强的,因为它需要协方差矩阵是正定的,而其他的只需要非负定即可。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 在随机向量服从多维正态分布的前提下,各分量(也可以是分块的分量)不相关和独立是等价的。(注意前提)
    在这里插入图片描述
    感谢观看,欢迎批评指正。【❀❀】
  • 22
    点赞
  • 153
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值