本part简介(*^_^*)
个人感觉这部分插在这里乱乱的…因为拿到多元数据首先考虑的好像不是它是否符合某个特定分布,而应该是如何处理它以得到样本特征,进而考察总体…所以刚讲完基础和前置知识就把这个极其特殊的分布引入似乎有点突兀(大概。不过理解这种组织结构的一种思路是,后续所有的具体分析方式,涉及非多元正态分布时和多元正态时都会体现出差异。因此先给个简单铺垫倒也合理(
以下内容给多元正态分布一个缩写:Multivariate Normal Distribution(主要是不想打字了orz
就MND本身的性质而言…
长啥样(密度函数及等高线
首先看看它的密度函数,这个可以从一元的直接改写出来,所以直接给出具体的改写方法。
一元的长这个样子
把里面画圈的分别替换成多元对应的形式即可,会变成
这里面指的是整体均值和整体的协方差矩阵。这个一般要么题目直接给出,要么需要通过样本进行估计。
这个密度函数里藏着某种玄机,看到exp的括号里面的部分。如果把它提取出来,这种“行向量乘对称阵乘列向量”的形式(学名二次型)非常像马氏距离表达式。进而,假设它等于某个常数,那么就可以得到这个概率密度的等高线(相当于这条线上每个点概率相同),因为到中心的距离是一样的。
我们的原始数据矩阵从几何上理解,就是在一个
维的空间里有
个点。如果对其中某两个点感兴趣,或者对某个点到所有样本的中心点的距离感兴趣,就需要考虑距离的计算方法。这里引入多元视角特有的对点距离的定义——马氏距离。
通常使用的距离计算方式是下面这种
叫做欧氏距离,适用于那些所有维度的单位和尺度都一样的情况。比如说,每个维度都是分数,只不过分不同科目这种情况。但如果有的维度是分数,有的维度是身高,如果想比较不同点之间的距离,直接用这种方式算会让尺度大的维度上的差异遮蔽尺度相对小的。有点类似于瘦死的骆驼比马大,所以最好是把骆驼放在骆驼群比较,把马放在马群比较。具体来说就是除以这个维度的方差,这就是传说中标准化的主要思路。这里的“方差”同样有两种算法,如果题目给出的是总体水平,那么就是
的主对角线上点;如果给出的是样本水平,那么就是
的主对角线。
但这种情况下是假定这几个维度互相独立,意味着他们的坐标轴画出来是互相正交的。最简单理解这个的思路是,如果几个点欧氏距离相等,那么他们处于以原点为圆心的一个⚪上;如果几个点马氏距离相等,那么处于以原点为中心的一个椭圆上。但是椭圆这东西,转来转去的话并不相等,坐标系是不是它的长短轴,对于它的位置区别还是很大的。而上面的考虑相当于只对各个维度之间的差异进行了伸缩,而没有考虑旋转的问题。所以,如果这几个维度并不互相独立,那么还要考虑他们之间的相关性。
具体来说,就是要通过一种旋转方式,把坐标轴转成椭圆的各个轴的方向。如果是二维,那么是长短轴,如果不是,那么多个维度都需要对应。然后经过计算,发现这种旋转和拉伸的总效果是把欧氏距离中间乘上了协差阵的逆。具体来说
,这个是某个点到自己符合的分布的期望的距离;进而,如果两个点都符合某个分布,那么他们之间的距离也可以这样计算。
现在把这两个距离的表示放到一起来看,可以发现他们都是二次型的形式,都是某个向量的转置乘个矩阵再乘这个向量。
这个东西的期望有个计算公式,现在来一步步推一下。
假定两边的随机向量是
,并且已知期望和协差阵分别是
。那么它的二次型的期望
这一步是因为,常数的trace(主对角线上元素之和)等于它自己。进一步,由于trace内部可以排队换序,
,并且trace和期望都是线性运算,所以这俩又可以换序,就能得到
观察期望内部的式子,由于这里面的
是一个已知的矩阵,所以可以挪出期望,进而就等于
然后看里面那个东西,回忆一下一元随机向量里
,可以同等地套用到多元,然后得到
,再代回这个公式得到
前面那个式子放着不变,后面的还能化简,参考trace的换序特征以及常数情况等于自己,可以得到
然后如果对以上两个距离的二次型套用这个定理,就可以分别得到这两个距离的期望,第一步是求出旁边的这俩向量的期望和协差阵。对于
这个随机向量而言,由于
是确定的,就只需要考虑
的随机性。总体而言,他们的期望是
,协差阵仍是
。代入可以得到
两个非常简洁的常数。
补充一下这两种距离本身之间的关系的几何理解。具体来说,我们刚刚求解马氏距离对原数据进行的变换是,先旋转、再拉伸,最后把原来堆得像一个椭圆的数据搓成一个⚪。这个变化过程本身就类似谱分解。而再看马氏距离的定义式
这个里边的
也是个对称阵,根据前面的公式也可以谱分解。那么这个式子可以写成
它总共是6个东西的乘积,仔细观察会发现,前三个东西凑在一起相当于是后三个东西的转置。所以可以直接化成某一个向量的转置再乘自己的形式。把这个向量记为
得到的最直接的关系是
和
之间的马氏距离,也就是
这个向量到原点的马氏距离,等于
这个向量到原点的欧氏距离。
这个从直观上可以这么理解,旋转和伸缩坐标系都相当于反向旋转和伸缩数据点,进而把所有数据糅进一个⚪里,进而新的数据的协差阵为
。
写出来就是这么个式子, 代表的图像是一个高维椭圆,它的特点是,中心是
,各个轴分别是
。如果不考虑它等于某个常数值的情况,等号左边的函数作为一个一元随机变量,符合卡方分布
。进而,对于
而言,有
的概率落在
这个范围里。
,这里面的
,那么和自己做内积之后就等于
,相当于
个标准正态累加。
它如何与一元正态分布互换——线性变换
先说一个基本性质,和它本身的定义是等价的。通俗地说,如果,那么它的各个分量的任意线性组合都服从正态分布(但注意是一元正态),具体来说,
对任意向量
都成立。那么非常自然地,如果多找几个向量
然后把它们叠起来形成一个矩阵,那他们乘上
这个向量也同样符合正态分布,但这里是多元的。假设这个矩阵是
,那么
。
上面的内容说的是,如果是个服从MND的向量,某一个矩阵左乘它的情况;那么如果同时有一把服从MND的向量,再对他们做线性组合,相当于把这个矩阵左乘另一个向量,假设是
那么如果这几个向量的期望不同,但是协差阵是相等的,那么根据它的线性性质可以得到,这里面,期望就是正常的线性计算,协差阵前面的系数需要把对应的系数平方,并且需要累加之后再乘协差阵(当然先乘也无所谓)。
更进一步,如果有两组这么个玩意儿,比如再来一个,然后
,可以得到他们的联合分布,同样是MND,它的协差阵是
;如果左下和右上那俩都是0,那么这两个向量
应该是互相独立的。
由一元ND得到它…
假设现在有一堆符合一元标准正态分布的,把它们先叠起来凑出一个向量
,应该是符合
的。假设另外有两个向量、对称阵分别是
,要构造一个符合
的向量,就是
。
由它得到一元ND…
边缘分布(当然也是正态
这个可以直接从总体的期望和协差阵得到,具体来说可以直接参考这个例子
相当于把对应位置上的期望和协差阵直接提取出来,不用管剩下的东西是多少。但剩下的东西不是完全没有影响,它的意义在于,如果这里面(-1,2)这部分是0,那么可以推出 是彼此独立的。反过来也成立。这个条件专门用来对付题目里给出独立信息时如何使用。
比如说
条件分布(其实也是正态,但系数麻烦
这里给出一个最简单的版本,假定,并且确保左上和右下的两个协差阵的行列式都大于0(不然没法放在分母),那么可以得到,如果其中一个向量是确定的,假设
是已知的,那么这时候如果记
,可以把期望和协差阵解出来,分别是
如果外推(套用到样本中,有哪些应用…
这一部分和上面的本质区别在于,手头上有的到底是理念世界存在的模型,还是一大堆据说符合某个分布的样本。啥意思呢,放在题目里就是,前面的内容适用于“假设某个向量符合MND,请问它经过xxx之后是什么分布”,而后面的内容则适用于“已知如下数据符合MND,请问它的xxxx参数是什么”。
如何对两大参数(均值&协差阵)进行点估计?——MLE
似然函数就是把每个样本的密度函数乘起来,然后对需要求解的参数求偏导,可以得到下面这俩
就是一开始介绍的描述样本的重要统计量。
但它并不完全是无偏的,要怎么找到无偏的呢?
首先确实是无偏的,但是
才是无偏的。原因是用
来估计
时用掉了一个“自由度”。
预知这俩参数可能取值,如何检验到底是不是?——HT
这里先宕开一笔,简单说说假设检验的基本思路是什么,再说说如何应用到这个具体情境中。简单来说它涉及到两条线,分别从理想与现实出发,然后最终判断是否一致。从理想出发,就是定义一个原假设和一个备择假设,不到万不得已不推翻原假设。从现实出发,就是选取一个检验统计量,这玩意儿要求可以完全由手头上的数据计算得出,并且在理想情况下是符合某个我们知道的分布的(比如t和F这种),这样就可以根据现实判断,它到底符合还是不符合。接下来,根据这个已知的分布和事先给定的显著性水平找到拒绝域,这个依然是理想情况。然后再转回现实,看样本计算出的检验统计量是在拒绝域里呢,还是外面。
只有一个总体的情况(看均值和自己的预设是否一致
从理想出发,我们有一个预设,现在希望检测当前总体的期望
和它是否一致。但是由于这个总体水平的期望是看不见摸不着的,所以需要找一个当前数据下现实里的最佳对应物作为它的估计,再来比较是不是和预设一致。这个估计的方式有很多种,前述的最常用的就是样本均值
。所以问题转化成,看
的距离是不是和
很接近,以及有多接近。但是
毕竟只是一个估计值,随样本变化而发生改变,存在估计
的偏差。所以有可能
确实就是
,但是
估计
估偏了,进而距离
显得非常远。那我们就需要设定一个小范围允许
和
有一定的偏差;如果他们的距离实在太大,远的异乎寻常,超过了这个范围,而这件事情发生的概率又奇小无比,才能“万不得已”
(但喜形于色)地表示,嗯,总体的期望和预设
实在是不一样的!
那就涉及到一个问题,怎么找到“和
之间的距离是某个值”这件事情的概率呢?首先
是一个已知的确定的向量,没啥好处理的;那就只能从
下手,去看它的分布情况,然后根据它的概率密度函数确定它取到某个值的概率。这也可以转化成,找
的分布,看它取到0的概率。而
的分布是啥需要用到原假设。如果原假设(
)这件事情成立,等价于
,等价于
(找到了上面说的第一个分布),等价于
。如果我们确实知道
是多少,右边就是一个已知分布。这种情况下,直接去看
取到目前数据算出来的那个值的概率就可以。但一方面这玩意儿不好算,另一方面,绝大部分情况下都是不知道的(悲。所以需要用样本协差阵
去估计。那就不能再用这里MND的概率密度函数来算这件事情的概率了。至于
,它符合下面这个分布
- 并且他俩是彼此独立的。
- 为啥这俩彼此独立呢?直观理解,就是样本中心在哪里和它有多分散是不相干的两码事。计算证明也很简洁,
基于这几个式子,又可以得到一个新的分布,这个放在一元里也成立,但不常用,一般会用它开根号得到的t分布。
这个新的分布也有一些好特质。最有用的就是线性变换之后保持不变。那么如果换之后的不好算,就直接用换之前的就行。
这个式子相当于一元情况下t检验的推广。分析一下它的形式,相当于一个MND的内积,中间除了一个Wishart。如果根据它确定拒绝域(也就是到底距离差多少的时候我们拒绝原假设?)那么开口向右边,就是根据样本把这个值算出来,大于的时候拒绝原假设。
另一种检验方法——LRT!
这个也需要两种相反的假设。但和上面的检验方法异曲同工。
这是一种比较巧算的方法,因为矩阵行列式好求,但逆矩阵不好求。这样可以绕开求逆。
有俩总体,要判断期望之差是否符合预设的情况
这里面涉及到一个非常关键的问题,这俩总体到底是否独立?这个不同事实上是很关键的。具体的区别比如,检验同样的学生受教育前后的成绩是否变化,那就需要把同一个人前后的成绩相减然后看成新的单一总体,使用上面的方法,不然会忽略个体差异对成绩的影响;但如果采的是两个班的样,确定是不一样的总体,并且样本之间的顺序不影响作差的结果,就无需配对,跳到第二种方法。
首先要配对!然后回到上边
把同一样本前后的差异求出来,记成一堆新样本,然后按上面的方法比较,设
即可。
不能配对!但样本非常小且同协差阵…一种新方法
这一部分既非常接近一元时的双总体,又非常接近多元时的一总体。(有一种杂交的感觉。首先对他们总体水平期望的差异的估计很显然是样本均值的差异 ,需要检验它是不是等于一个事先给定的
。由于确定已知俩总体的协差阵相同,且他们各自的均值分布都符合上面的式子
,因此直接作差可以得到
,这个更进一步写成
,和前面的变形完全一致。
但这个是比较理想的情况,现实里我们也不知道这个相同的总体斜差阵到底是多少,所以需要用样本来估计。但问题出现了:俩总体的样本协差阵极大概率有差异,用谁的来估计更准确呢?二选一肯定不如把他们的信息综合起来,这个综合的方式就是pool过的大样本协差阵,把下面这两个式子组合起来
然后用到这个分布的特殊性质,把它们叠起来就能得到,用它来替换原来一元当中各自的样本协差阵的地位非常合理,如果两边同时除以系数,可以得到
。
- 这里面这个Wishart分布可以理解成卡方分布的多元对应物。具体来说,卡方是某向量内积累加的分布,它是某向量外积累加符合的分布。它的下标表示的是这个向量的维度,里边的第一个参数表示的是自由度,后面那个就是这个向量的协差阵。
- 有下面几个比较简单的性质
最后一步就是模仿前面的形式,
写出一个针对双总体的检验统计量,也是“一个MND转置*一个Wishart倒数*这个MND本身”的样子,进而它的分布也应该是一个F分布。看上面这个公式可以确定系数。 表示维度,还是不变;
相当于Wishart分布的的自由度,在新的情况下变成
;最后是
,它是由
得到的,因此变成
,依然放在分母上。
,把右边设置为拒绝域。
真的需要这个正态假设吗……?(样本量足够大时管他呢
到目前为止,前文所有推断都是基于某个假设,即我们得到的所有样本来源都是某个正态,虽然我们不知道具体是什么,但可以确认是个正态。但事实上,这个假设大部分情况下未见得成立。这时候一种有效的补救措施是,如果样本量足够大,其实我们并不需要这个假设一定成立。
在一元情况下有一个东西叫CLT中心极限定理,就是说不管初始时都是啥分布,只要样本数足够大,他们取均值之后的东西(假设记为
)都会逐渐趋于总体期望。并且它会越来越符合正态分布。放在多元情况里类似,这个性质叫相合性。根据这个可以顺而得到,样本的协差阵也会逐渐趋于总体的协差阵。
这里面第一步就是一个抄定义,第二步是非常经典的加一项减一项的操作。然后把它们拆开,再利用一下上面那个性质会发现它变成了
。
在这种情况下,原始的随机向量不一定符合MND,但是假如我们(通过某些方式)已知总体的期望和协差阵分别是,我们依然可以得到
无限趋近于
分布,前面我们用来看是否符合F分布的检验统计量
现在会非常接近
分布。不过这个要求样本数相比较维度来说非常大。
可以用这种方式来做假设检验。拒绝域同样设在右边。不过这次用的是 分布。
那假设到底是否成立呢?(怎么检验…?
在一元的数据里,最简单的检验方法就是用图形,两类图是比较常见的
- 直方图
- QQ图
考虑到我们之前说,多元本身可以由一元得到,进而,检验它的方式也可以还原到一元的尺度上。具体来说,我们可以找到它的边缘分布,看每一个边缘分布是不是符合一元正态分布,如果不是,那这个整体肯定不是多元正态分布;当然,即使全都是,也不一定整体是。
还有一种方式也可以把这个多元正态转换成某个一元正态——让某个行向量左乘它,把它变成自己的各个分量的线性组合。
那如果协差阵不同呢…(同样需要大样本
最终依然趋近于卡方分布。我们的检验统计量是
区间估计(和前文的假设检验一体两面)
这个东西的标准统一格式都是,点估计某个分布分位数*区间半长。其中,点估计一般要求无偏的,非常常规;分布分位数是事先给定的;只有区间半长会随着需求和算法不同发生变化。另外,多元情况下也可以估计一个置信区域(面,不只是上下两条)。
CR——对于总体水平的期望而言
先看看单总体情况…
这就需要回溯上面的分布
首先分位点可以一眼看出。但是这个区间没法用两段的形式给出,而是一个椭圆。所以给出一个范围,假设我们对总体的期望是
,那么它必然所在的
区域是
这个里面,小于号左边的内容就是上面的检验统计量的变形,把已知、待检验的改写成未知、需要求解的
。右边是取了符合这个分布的点所在的
区域,就是前述的分位点。
再来看看多总体情况!
单个CI(对于总体期望某种线性组合而言)
考虑到我们上面的到的整个期望是一个巨大的向量,但是我们有时候关心他们每个分量分别所处的位置信息。具体来说,假设我们想得到各个分量之间的某种线性组合,比如这个向量与另一个向量的内积。然后得到一个新的一元变量
,那么考虑到我们有n个样本,也就能顺着得到n个
。现在想来看看,这个新变量必然所在的
区域是啥呢?那么就需要考察它自己的分布。
,可以看出它是一个一元正态分布。现在要估计
,首先是点估计,
,用到了MLE的不变性。接着,由于不知道
,也需要用
来估计,那么得用如下这个t分布的分位数,
,参考一元正态分布的假设检验。进而
的
置信区间
相当于就是把上面那个分布进行了转换。
多个CI(仍是一元,但更复杂)
那如果更进一步,现在有多个这种组合,然后想看看,能不能对每个组合找一个区间,使他们综合来看都处于区间之中的概率是?这个并不同于分别求区间再累加,因为当我们要求某个组合都在某个区间这件事对每个组合同时成立,那事实上总体概率是
相乘,次数是组合数。这个很明显越乘越小,相当于这件事会越来越困难。因此,我们需要把原本的区间扩大,让每个组合处于对应的区间的概率变大,这样他们联合起来才可能差不多正好
。
给出下面这个非常经典的修正:Bonferroni correction。具体来说,就是把原来的分位点变成
,这里面的
就是需要满足条件的组合数。
所有CI!(可以说非常激进了
先看看单总体……
那有没有可能找到一个区间能同时覆盖所有的这种线性组合呢?答案是有的!这个需要回头用到上面的F分布,具体来说,区间半长和点估计都不变,但分位点需要改成,相当于上面那个CR的分位点开根号。
它俩之间确实有关联。画出图会发现CR是这种CI的内切椭圆。
再看看多总体……(小样本情况乖乖遵守MND假设
单总体,但大样本,使用CLT…
我们现在已有的信息是
-
趋近于
趋近于
然后我们想找到一个对于所有都有极大概率能覆盖
的区间。先研究一下
,把原来的式子凑这个形式
,接着就非常一目了然了。
首先点估计是不变的,分位点也比较直观
(开根号是因为上面的式子其实把需要求的东西平方了),然后区间半长是
。