稳定性检验

最新推荐文章于 2025-02-07 14:39:47 发布

hellocsz

最新推荐文章于 2025-02-07 14:39:47 发布

阅读量1.9w

点赞数 5

原文链接：http://blog.sina.com.cn/s/blog_a36a563e0102y2ec.html

版权

3种主要的稳健性检验途径
1. 从数据出发，替换不同的样本进行检验样本是否有问题；

2. 从变量出发，根据其它不同指标对样本进行分类后，检查分类后的样本是否对y特征的显著性有影响；

3. 从计量方法出发，用不同的工具或检验方法。。

可以用OLS, FIX EFFECT, GMM等来回归，看结果是否依然robust；

方差分析主要有三种模型：即固定效应模型（fixed effects model），随机效应模型（random effects model），混合效应模型（mixed effects model）。

深度理解高斯混合模型（GMM）

http://blog.sina.com.cn/s/blog_a36a563e0102y2ec.html

一个非常好的博客！

之前在学习中遇到高斯混合模型，卡了很长一段时间，在这里记下学习中的一些问题以及解决的方法。希望看到这篇文章的同学们对高斯混合模型能有一些基本的概念。全文不废话，直接上重点。

本文将从以下三个问题详解高斯混合模型：

1.什么是高斯混合模型？

2.高斯混合模型的数学原理？

3.高斯混合模型在MATLAB中如何使用？

一、什么是高斯混合模型？

高斯混合模型，英文全称：Gaussian mixture model，简称GMM。高斯混合模型就是用高斯概率密度函数（二维时也称为：正态分布曲线）精确的量化事物，将一个事物分解为若干基于高斯概率密度函数行程的模型。这句话看起来有些深奥，这样去理解，事物的数学表现形式就是曲线，其意思就是任何一个曲线，无论多么复杂，我们都可以用若干个高斯曲线来无限逼近它，这就是高斯混合模型的基本思想。那么下图（图1.1）表示的就是这样的一个思想。

好，我们继续，对于图1.1，换一种方式理解，曲线是模拟一组数据的结果，而这些数据分布情况如图1.2所示。那么此时GMM模拟出的曲线就有了现实的意义，这时就可以用构造好的GMM模型来表达这些数据，相比于存储数据，使用GMM中的参数来表达数据要方便简单的多，并且是数学上有完整的表达式。

图1.2 数据分布情况

反过来思考，假如先拿到的是图1.2，知道了数据的分布情况。如何用曲线和数学表达式来逼近模拟它呢？答：用高斯混合模型来做，做出来的结果如图1.1所示，图1.1中上方的曲线是由若干个高斯函数叠加而成的。以上就是高斯混合模型的基本概念。

增加数据维度，得到更为复杂一点的结果如图1.3所示，这也是我们经常看到GMM情况。

题外话：高斯混合模型也被视为一种聚类方法，是机器学习中对“无标签数据”进行训练得到的分类结果。其分类结果由概率表示，概率大者，则认为属于这一类。

二、高斯混合模型的数学原理

在二维的情况下，理解起来很简单，如图1.1表示的那样，一个复杂的曲线可以用若干个组合起来的高斯函数来逼近。

在三维的情况下，同样的理解：任何一个曲面都可以用高斯函数来逼近。

在N维的情况下，任何一个模型都可以用高斯函数来逼近。（当然，这里用到的“高斯函数”的维度是跟着数据的变化而变化的）。好，这里重新复习了一下GMM的概念。数学原理我们从最简单的二维开始来理解，由浅入深。

2.1 二维高斯函数

二维高斯函数的表达式、图形以及似然估计中的3sigma原则，都在图中列出，码字不易，PPT也是自己做的，为了保护版权，添加了水印，如有疑问，可以联系图中QQ在线交流。

（对于图2.3，解释一下，当时理解上出了一点小问题，把图中的二维都视为三维就好了，不影响。）

这里对图2.2和图2.3进行说明，u1和u2是均值，均值u的物理意义就是高斯混合模型的中心，这个中心可以表示为（u1,u2），标准差sigma决定高斯函数的形状，这和二维情况是一样的。在图2.3中下方两个图可以看到，从某一个二维坐标系来看，三维高斯函数可以简化为二维高斯函数。协方差rou表示的是数据的相关性。

2.3 N维高斯函数

N维高斯函数数学表达式由图2.4给出，其协方差的概念由图2.5给出。

2.4 高斯混合模型的数学原理

前面我们首先了解了高斯混合模型是什么：用高斯函数近似表示曲线或者曲面。然后铺垫了部分数学基础：从二维到N维高斯函数的表达式及其参数的物理意义。下面由图2.6给出高斯混合模型的数学表达式

看到这个表达式是不是很高兴，没有想象中那么难，很简单的一行。这里说明一下：

（1）X是随机变量，可以理解为维度不定向量，X的维度决定了g(x)的维度，g(x)是单一高斯函数，也就是N维的高斯函数，其中N可以为任意整数，N由X的维度决定。

（2）回到之前的那个问题，用若干个高斯函数近似一个曲线或者曲面，无论这个曲线或者曲面是简单或复杂。要想实现近似，需要确定用多少个高斯函数来近似，这个高斯函数的个数用K表示，K的意义就是：GMM中单一高斯函数的个数。再专业一点，称K为GMM中成分的个数，其中成分指的就是单一高斯函数。【成分这个词在GMM中的由来是因为MATLAB中将GMM中高斯函数个数用“ComponentProportion”来表示，译为“成分”】

（3）混合权重中：每个单一高斯函数在GMM中所起的作用是不一样的，混合权重在决定了单一高斯函数在GMM中起的作用，可以联想本文中图1.1，拟合这条曲线的每个高斯函数的高度都是不一样的。

（4）维度的问题，这个比较好理解。维度就是随机变量X的维度，也就是单一高斯函数g(x)的维度，主要是由随机变量X的维度决定的。当一个高斯混合模型维数为N、成分为K时，我们称之为：K个成分N阶的高斯混合模型。

了解了以上概念之后，要确定一个高斯混合混合模型，要怎么做呢？关键是确定图2.6中的参数，如何确定？这里要用到EM算法【EM算法，指的是最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，在统计学中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。】

接下来从单一高斯函数入手，从2成分的GMM到K成分的GMM详述了参数的确定方法，给出了推导过程，对参数概念不明白的地方可以看图2.7 高斯混合模型参数概念

EM算法

博客等级

码龄7年

12
原创

1477
点赞

5410
收藏

584
粉丝

关注

私信

热门文章

分类专栏

笔记 4篇
个人 41篇

最新评论

有界变差函数
Mikolin.DR: 不是Matheron提出吗？名字不要搞错哦
linux软件版本管理命令update-alternatives使用详解
又菜又爱玩1.0: 太强了，终于解决，感谢大佬！！！
jupyter notebook 可以做哪些事情？
bunny: pin-1 is not installable because it requires └─ python 3.12.* , which conflicts with any installable versions previously reported.安装环境自动关联包出现这个啥意思
带宽
是月牙吖: 带宽不是比特率吗？应该是每秒传输多少个bit吧，不是字节吧
Linux下JDK到底应该安装在哪儿？
E-ratic Watcher: 系统范围目录（如 /usr/lib/jvm 和 /usr/local/java）适用于需要所有用户访问 JDK 的场景。用户目录（如 ~/java 和 ~/Software/JDK/JDK1.8）适用于个人用户的 JDK 安装，无需 sudo 权限。问gpt推荐哪个，说可以按这个

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。