稳定性检验

3种主要的稳健性检验途径
1. 从数据出发, 替换不同的样本进行检验样本是否有问题;


2. 从变量出发,根据其它不同指标对样本进行分类后,检查分类后的样本是否对y特征的显著性有影响;

 3. 从计量方法出发, 用不同的工具或检验方法。。

可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;

方差分析主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

 

深度理解高斯混合模型(GMM)

http://blog.sina.com.cn/s/blog_a36a563e0102y2ec.html

一个非常好的博客! 

之前在学习中遇到高斯混合模型,卡了很长一段时间,在这里记下学习中的一些问题以及解决的方法。希望看到这篇文章的同学们对高斯混合模型能有一些基本的概念。全文不废话,直接上重点。

本文将从​以下三个问题详解高斯混合模型:

1.什么是高斯混合模型?

2.高斯混合模型的数学原理?

3.高斯混合模型在MATLAB中如何使用?

 

一、什么是高斯混合模型?

      高斯混合模型,英文全称:​​Gaussian mixture model,简称GMM。高斯混合模型就是用高斯概率密度函数(二维时也称为:正态分布曲线)精确的量化事物,将一个事物分解为若干基于高斯概率密度函数行程的模型。这句话看起来有些深奥,这样去理解,事物的数学表现形式就是曲线,其意思就是任何一个曲线,无论多么复杂,我们都可以用若干个高斯曲线来无限逼近它,这就是高斯混合模型的基本思想。那么下图(图1.1)表示的就是这样的一个思想。

      好,我们继续,对于图1.1,换一种方式理解,曲线是模拟一组数据的结果,而这些数据分布情况如图1.2所示。那么此时GMM模拟出的曲线就有了现实的意义,这时就可以用构造好的GMM模型来表达这些数据,相比于存储数据,使用GMM中的参数来表达数据要方便简单的多,并且是数学上有完整的表达式。

 

图1.2  数据分布情况

      反过来思考,假如先拿到的是图1.2,知道了数据的分布情况。如何用曲线和数学表达式来逼近模拟它呢?答:用高斯混合模型来做,做出来的结果如图1.1所示,图1.1中上方的曲线是由若干个高斯函数叠加而成的。以上就是高斯混合模型的基本概念。

      增加数据维度,得到更为复杂一点的结果如图1.3所示​,这也是我们经常看到GMM情况。

题外话:高斯混合模型也​被视为一种聚类方法,是机器学习中对“无标签数据”进行训练得到的分类结果。其分类结果由概率表示,概率大者,则认为属于这一类。

二、高斯混合模型的数学原理

      在二维的情况下,理解起来很简单,如图1.1表示的那样,一个复杂的曲线可以用若干个组合起来的高斯函数​来逼近。

      在三维的情况下,同样的理解:任何一个曲面都可以用高斯函数来逼近。

      在N维的情况下,任何一个模型都可以用高斯函数来逼近。(当然,这里用到的“高斯函数”的维度是跟着数据的变化而变化的)。好,这里重新复习了一下GMM的概念。数学原理我们从最简单的二维开始来理解,由浅入深。

2.1 二维高斯函数

      二维高斯函数的表达式、图形​以及似然估计中的3sigma原则,都在图中列出,码字不易,PPT也是自己做的,为了保护版权,添加了水印,如有疑问,可以联系图中QQ在线交流。

 ​(对于图2.3,解释一下,当时理解上出了一点小问题,把图中的二维都视为三维就好了,不影响。)

 

      这里对图2.2和图2.3进行说明,​u1和u2是均值,均值u的物理意义就是高斯混合模型的中心,这个中心可以表示为(u1,u2),标准差sigma决定高斯函数的形状,这和二维情况是一样的。在图2.3中下方两个图可以看到,从某一个二维坐标系来看,三维高斯函数可以简化为二维高斯函数。协方差rou表示的是数据的相关性。

​2.3 N维高斯函数

​      N维高斯函数数学表达式由图2.4给出,其协方差的概念由图2.5给出。 

 

​2.4 高斯混合模型的数学原理

​     前面我们首先了解了高斯混合模型是什么:用高斯函数近似表示曲线或者曲面。然后铺垫了部分数学基础:从二维到N维高斯函数的表达式及其参数的物理意义。下面由图2.6给出高斯混合模型的数学表达式

看到这个表达式是不是很高兴,没有想象中那么难,很简单的一行。这里说明一下:

(1)X是随机变量,可以理解为维度不定向量,X的维度决定了g(x)的维度,g(x)是单一高斯函数,也就是N维的高斯函数,其中N可以为任意整数,N由X的维度决定。

(2)​回到之前的那个问题,用若干个高斯函数近似一个曲线或者曲面,无论这个曲线或者曲面是简单或复杂。要想实现近似,需要确定用多少个高斯函数来近似,这个高斯函数的个数用K表示,K的意义就是:GMM中单一高斯函数的个数。再专业一点,称K为GMM中成分的个数,其中成分指的就是单一高斯函数。【成分这个词在GMM中的由来是因为MATLAB中将GMM中高斯函数个数用“ComponentProportion”来表示,译为“成分”】

(3)混合权重中:每个单一高斯函数在GMM中所起的作用是不一样的,混合权重在决定了单一高斯函数在GMM中起的作用,可以联想本文中图1.1,拟合这条曲线的每个高斯函数的高度都是不一样的。​​

(4)维度的问题,这个比较好理解。维度就是随机变量X的维度,也就是单一高斯函数g(x)的维度,主要是由随机变量X的维度决定的。当一个高斯混合模型维数为N、成分为K​时,我们称之为:K个成分N阶的高斯混合模型。

      了解了以上概念之后,要确定一个高斯混合混合模型,要怎么做呢?关键是确定图2.6中的参数,如何确定?这里要用到EM算法【EM算法,指的是最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。】

接下来从单一高斯函数入手,从2成分的GMM到K成分的GMM详述了参数的确定方法,给出了推导过程,对参数概念不明白的地方可以看图2.7 高斯混合模型参数概念

 

EM算法

 

 

数学建模稳定性检验通常是为了验证模型在面对数据波动、参数变化或其他扰动时是否能够保持其性能或者输出的稳定性稳定性检验的代码会根据具体的模型和检验方法而有所不同,但通常会包括对模型进行多次模拟,然后分析结果的变化情况。 以一个简单的线性回归模型为例,稳定性检验可能包括以下步骤: 1. 使用相同的模型结构和算法多次对同一数据集进行拟合,每次使用不同的随机种子来初始化模型参数。 2. 记录每次拟合得到的参数值或者性能指标(如R平方值)。 3. 分析这些参数值或性能指标的分布情况,例如计算它们的平均值、方差、标准差等统计量。 4. 如果统计量表明模型的参数或性能在多次拟合中波动很小,则可以认为模型具有较好的稳定性。 以下是一个简单的Python代码示例,用于进行线性回归模型的稳定性检验: ```python import numpy as np from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score # 假设我们有一些数据X和y X = np.array([...]) y = np.array([...]) # 设置模拟次数 n_simulations = 100 r2_scores = [] for i in range(n_simulations): # 创建线性回归模型实例 model = LinearRegression() # 使用相同的X和y进行拟合,但每次可能初始化的参数不同 # 在实际中,可以通过改变数据的采样方式来模拟不同的情况 model.fit(X, y) # 预测并计算R平方值 y_pred = model.predict(X) r2_scores.append(r2_score(y, y_pred)) # 计算R平方值的统计量 mean_r2 = np.mean(r2_scores) std_r2 = np.std(r2_scores) print("平均R平方值:", mean_r2) print("R平方值的标准差:", std_r2) # 根据需要判断模型的稳定性 ``` 请注意,这只是一个非常简单的示例,实际的稳定性检验会根据模型的复杂性和应用场景有更详细的要求和方法。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值