具有相关关系的数据处理：线性混合模型与广义线性混合模型

JessssseYule

于 2019-11-03 16:09:04 发布

阅读量7.1k

点赞数 8

分类专栏：数据科学机器学习文章标签：线性混合模型广义线性混合模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jesseyule/article/details/102883491

版权

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

13 篇文章

订阅专栏

进行数据分析时，会发现有时候一个模型中的变量之间可能具有相关性（correlation），比如面积和长度就具有高度的相关性，如果同时对这些参数建模，就存在共线性问题，所以一般是只针对其中一个参数建模。而这种相关性，其实还存在于数据之中，比如时间序列数据，在不同的时间，同一个对象的数据之间就是相互有联系的，那么我们应该怎么对这些具有相关性的数据进行建模分析呢。

在进一步分析之前，再次强调一下，这里分析的是相关数据，因为一开始我自己也搞混了，所以这里再举多几个例方便理解。

第一个例子是婴儿体重的变化数据，假设我们要测量不同婴儿出生后一年的体重变化，我们就得到不同婴儿一年内体重的变化数据，数据可以分为不同的对象（婴儿），以及同一对象不同时刻的数据（体重），对同一对象来说，数据是相关的，对不同对象来说，数据是独立的。

第二个例子是分析几所高中学生三年成绩的变化情况，一般来说，学习有好坏，好的学生进好的学校，好的学校给学生更好的教育，所以一般来说同一间学校的学生成绩会比较接近，具有相关性，不同的学校成绩可能就差距比较大，所以可以看成是独立的。

像以上这类既包含不同对象，也包含同一对象不同阶段的数据，可以称为纵向数据（longitudinal data）。

既然以前的模型，没有考虑到不同学校之间的这种差异性，那么我们在模型中引入这种差异性不就好了，具体怎么引入呢，这里尝试对不同的学校，采取不同的参数，我们以前的模型是：

$Y_{i} = \beta + \gamma X_i + \epsilon _{i}$

Yi表示某个学生的成绩，Xi表示考虑的变量（这里直接用一个向量表示），比如学习时间年级等等，这个模型认为所有学生服从同一个模型描述，忽略了实际上有部分学生平均水平更好，一部分学生平均水平更差。

如果采用不同的参数，则可得到模型：

$Y_{ki} = \beta_{k} + \gamma_{k} X_ki + \epsilon _{ki}$

公式中的k表示某一间学校，也就是说对不同的学校，参数beta、gamma、epsilon都是不同的。

现在我们来考虑一个问题，如果单纯对不同的学校用不同的参数建模，那还不如直接把数据根据不同的学校进行划分，那还不更简单，但如果要分析一个城市的学生水平呢，总不能划分了数据再进行分析吧，所以这里就引入了另一个重点，不同的学校的参数之间是否从某一个分布的（比较常用正态分布），这时候，我们的模型其实就可以改写为：

$Y_{ki} = (\beta_0 + \gamma_0 X_i) + (\beta_{k}+ \gamma_{k} Z_ki + \epsilon _{ki})$

我们可以把模型看成两部分，一个是固定效应（fixed effect），一个是随机效应（random effect），Z是X的一个子集，这样的原因是因为可能有一部分参数不会随着学校不同而发生显著变化。

以上，就是混合模型的基本思路推理过程。所以什么是线性混合模型什么是广义线性混合模型，本质上就是在原本的线性模型和广义线性模型中加入随机效应。

在github写的自然语言处理入门教程，持续更新：NLPBeginner

在github写的机器学习入门教程，持续更新：MachineLearningModels

想浏览更多关于数学、机器学习、深度学习的内容，可浏览本人博客

博客等级

码龄6年

111
原创

796
点赞

3337
收藏

983
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 用逻辑回归（logistic regression）进行数据分析

下一篇：: 广义加性模型（GAM）

最新评论

分位数回归（Quantile Regression）
吹风机538: 可以，为数不多的讲得清楚的
元学习系列（二）：Prototypical Networks（原型网络）
m0_64598000: 应该不是这个意思，训练阶段中就包含了训练集（原型网络中定义为支持集）和测试集（查询集），测试阶段也是一样。训练过程中，原型网络更新的其实是各个类别的原型的空间分布，通过最小化查询集与同类原型之间的距离，不断地更新原型位置，让不同的类别数据得以区分。然后就得到了一个固定参数的网络模型，该模型可以在训练任务上较好地区分不同类。然后用这个模型在一个新的任务（同样包含支持集和查询集）中做测试（即测试阶段），通过支持集来计算各个类别的原型，然后计算查询集中的样本数据与原型之间的距离，样本数据与哪个类原型之间的距离最近则表示该样本数据样本属于这个类。测试阶段就是通过这种方式来判断训练过的模型是否能在一个全新的任务中，将某个数据进行正确分类。
分位数回归（Quantile Regression）
Petrichorr: 0.5分位不是平均数呀
LOESS（局部加权回归）
_SimpleLife: 大佬，请问可以做到实时平滑吗
分位数回归（Quantile Regression）
未来是可以抓住的: 谢谢，你的教程让我终于搞明白分位数回归了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。