3种主要的稳健性检验途径
1. 从数据出发, 替换不同的样本进行检验样本是否有问题;
2. 从变量出发,根据其它不同指标对样本进行分类后,检查分类后的样本是否对y特征的显著性有影响;
3. 从计量方法出发, 用不同的工具或检验方法。。
可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;
方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。
深度理解高斯混合模型(GMM)
http://blog.sina.com.cn/s/blog_a36a563e0102y2ec.html
一个非常好的博客!
之前在学习中遇到高斯混合模型,卡了很长一段时间,在这里记下学习中的一些问题以及解决的方法。希望看到这篇文章的同学们对高斯混合模型能有一些基本的概念。全文不废话,直接上重点。
本文将从以下三个问题详解高斯混合模型:
1.什么是高斯混合模型?
2.高斯混合模型的数学原理?
3.高斯混合模型在MATLAB中如何使用?
一、什么是高斯混合模型?
高斯混合模型,英文全称:Gaussian mixture model,简称GMM。高斯混合模型就是用高斯概率密度函数(二维时也称为:正态分布曲线)精确的量化事物,将一个事物分解为若干基于高斯概率密度函数行程的模型。这句话看起来有些深奥,这样去理解,事物的数学表现形式就是曲线,其意思就是任何一个曲线,无论多么复杂,我们都可以用若干个高斯曲线来无限逼近它,这就是高斯混合模型的基本思想。那么下图(图1.1)表示的就是这样的一个思想。
增加数据维度,得到更为复杂一点的结果如图1.3所示,这也是我们经常看到GMM情况。
题外话:高斯混合模型也被视为一种聚类方法,是机器学习中对“无标签数据”进行训练得到的分类结果。其分类结果由概率表示,概率大者,则认为属于这一类。
在二维的情况下,理解起来很简单,如图1.1表示的那样,一个复杂的曲线可以用若干个组合起来的高斯函数来逼近。
在三维的情况下,同样的理解:任何一个曲面都可以用高斯函数来逼近。
在N维的情况下,任何一个模型都可以用高斯函数来逼近。(当然,这里用到的“高斯函数”的维度是跟着数据的变化而变化的)。好,这里重新复习了一下GMM的概念。数学原理我们从最简单的二维开始来理解,由浅入深。
二维高斯函数的表达式、图形以及似然估计中的3sigma原则,都在图中列出,码字不易,PPT也是自己做的,为了保护版权,添加了水印,如有疑问,可以联系图中QQ在线交流。
(对于图2.3,解释一下,当时理解上出了一点小问题,把图中的二维都视为三维就好了,不影响。)
N维高斯函数数学表达式由图2.4给出,其协方差的概念由图2.5给出。
前面我们首先了解了高斯混合模型是什么:用高斯函数近似表示曲线或者曲面。然后铺垫了部分数学基础:从二维到N维高斯函数的表达式及其参数的物理意义。下面由图2.6给出高斯混合模型的数学表达式
看到这个表达式是不是很高兴,没有想象中那么难,很简单的一行。这里说明一下:
(1)X是随机变量,可以理解为维度不定向量,X的维度决定了g(x)的维度,g(x)是单一高斯函数,也就是N维的高斯函数,其中N可以为任意整数,N由X的维度决定。
(3)混合权重中:每个单一高斯函数在GMM中所起的作用是不一样的,混合权重在决定了单一高斯函数在GMM中起的作用,可以联想本文中图1.1,拟合这条曲线的每个高斯函数的高度都是不一样的。
接下来从单一高斯函数入手,从2成分的GMM到K成分的GMM详述了参数的确定方法,给出了推导过程,对参数概念不明白的地方可以看图2.7 高斯混合模型参数概念
EM算法