稳定性检验

3种主要的稳健性检验途径
1. 从数据出发, 替换不同的样本进行检验样本是否有问题;


2. 从变量出发,根据其它不同指标对样本进行分类后,检查分类后的样本是否对y特征的显著性有影响;

 3. 从计量方法出发, 用不同的工具或检验方法。。

可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;

方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

 

深度理解高斯混合模型(GMM)

http://blog.sina.com.cn/s/blog_a36a563e0102y2ec.html

一个非常好的博客! 

之前在学习中遇到高斯混合模型,卡了很长一段时间,在这里记下学习中的一些问题以及解决的方法。希望看到这篇文章的同学们对高斯混合模型能有一些基本的概念。全文不废话,直接上重点。

本文将从​以下三个问题详解高斯混合模型:

1.什么是高斯混合模型?

2.高斯混合模型的数学原理?

3.高斯混合模型在MATLAB中如何使用?

 

一、什么是高斯混合模型?

      高斯混合模型,英文全称:​​Gaussian mixture model,简称GMM。高斯混合模型就是用高斯概率密度函数(二维时也称为:正态分布曲线)精确的量化事物,将一个事物分解为若干基于高斯概率密度函数行程的模型。这句话看起来有些深奥,这样去理解,事物的数学表现形式就是曲线,其意思就是任何一个曲线,无论多么复杂,我们都可以用若干个高斯曲线来无限逼近它,这就是高斯混合模型的基本思想。那么下图(图1.1)表示的就是这样的一个思想。

      好,我们继续,对于图1.1,换一种方式理解,曲线是模拟一组数据的结果,而这些数据分布情况如图1.2所示。那么此时GMM模拟出的曲线就有了现实的意义,这时就可以用构造好的GMM模型来表达这些数据,相比于存储数据,使用GMM中的参数来表达数据要方便简单的多,并且是数学上有完整的表达式。

 

图1.2  数据分布情况

      反过来思考,假如先拿到的是图1.2,知道了数据的分布情况。如何用曲线和数学表达式来逼近模拟它呢?答:用高斯混合模型来做,做出来的结果如图1.1所示,图1.1中上方的曲线是由若干个高斯函数叠加而成的。以上就是高斯混合模型的基本概念。

      增加数据维度,得到更为复杂一点的结果如图1.3所示​,这也是我们经常看到GMM情况。

题外话:高斯混合模型也​被视为一种聚类方法,是机器学习中对“无标签数据”进行训练得到的分类结果。其分类结果由概率表示,概率大者,则认为属于这一类。

二、高斯混合模型的数学原理

      在二维的情况下,理解起来很简单,如图1.1表示的那样,一个复杂的曲线可以用若干个组合起来的高斯函数​来逼近。

      在三维的情况下,同样的理解:任何一个曲面都可以用高斯函数来逼近。

      在N维的情况下,任何一个模型都可以用高斯函数来逼近。(当然,这里用到的“高斯函数”的维度是跟着数据的变化而变化的)。好,这里重新复习了一下GMM的概念。数学原理我们从最简单的二维开始来理解,由浅入深。

2.1 二维高斯函数

      二维高斯函数的表达式、图形​以及似然估计中的3sigma原则,都在图中列出,码字不易,PPT也是自己做的,为了保护版权,添加了水印,如有疑问,可以联系图中QQ在线交流。

 ​(对于图2.3,解释一下,当时理解上出了一点小问题,把图中的二维都视为三维就好了,不影响。)

 

      这里对图2.2和图2.3进行说明,​u1和u2是均值,均值u的物理意义就是高斯混合模型的中心,这个中心可以表示为(u1,u2),标准差sigma决定高斯函数的形状,这和二维情况是一样的。在图2.3中下方两个图可以看到,从某一个二维坐标系来看,三维高斯函数可以简化为二维高斯函数。协方差rou表示的是数据的相关性。

​2.3 N维高斯函数

​      N维高斯函数数学表达式由图2.4给出,其协方差的概念由图2.5给出。 

 

​2.4 高斯混合模型的数学原理

​     前面我们首先了解了高斯混合模型是什么:用高斯函数近似表示曲线或者曲面。然后铺垫了部分数学基础:从二维到N维高斯函数的表达式及其参数的物理意义。下面由图2.6给出高斯混合模型的数学表达式

看到这个表达式是不是很高兴,没有想象中那么难,很简单的一行。这里说明一下:

(1)X是随机变量,可以理解为维度不定向量,X的维度决定了g(x)的维度,g(x)是单一高斯函数,也就是N维的高斯函数,其中N可以为任意整数,N由X的维度决定。

(2)​回到之前的那个问题,用若干个高斯函数近似一个曲线或者曲面,无论这个曲线或者曲面是简单或复杂。要想实现近似,需要确定用多少个高斯函数来近似,这个高斯函数的个数用K表示,K的意义就是:GMM中单一高斯函数的个数。再专业一点,称K为GMM中成分的个数,其中成分指的就是单一高斯函数。【成分这个词在GMM中的由来是因为MATLAB中将GMM中高斯函数个数用“ComponentProportion”来表示,译为“成分”】

(3)混合权重中:每个单一高斯函数在GMM中所起的作用是不一样的,混合权重在决定了单一高斯函数在GMM中起的作用,可以联想本文中图1.1,拟合这条曲线的每个高斯函数的高度都是不一样的。​​

(4)维度的问题,这个比较好理解。维度就是随机变量X的维度,也就是单一高斯函数g(x)的维度,主要是由随机变量X的维度决定的。当一个高斯混合模型维数为N、成分为K​时,我们称之为:K个成分N阶的高斯混合模型。

      了解了以上概念之后,要确定一个高斯混合混合模型,要怎么做呢?关键是确定图2.6中的参数,如何确定?这里要用到EM算法【EM算法,指的是最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。】

接下来从单一高斯函数入手,从2成分的GMM到K成分的GMM详述了参数的确定方法,给出了推导过程,对参数概念不明白的地方可以看图2.7 高斯混合模型参数概念

 

EM算法

 

 

  • 5
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值