广义线性模型（GLM）

最新推荐文章于 2024-03-01 16:09:41 发布

DemonHunter211

最新推荐文章于 2024-03-01 16:09:41 发布

阅读量2.1k

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kwame211/article/details/80348245

版权

算法专栏收录该内容

415 篇文章 30 订阅

订阅专栏

在线性回归中，y丨x；θ~N（μ，σ^2)。在逻辑回归中，y丨x；θ~Bernoulli（Φ）。这两个都是GLM中的特殊的cases。我们首先引入一个指数族（the exponential family）的概念。如果一个分布能写成下列形式，那么我们说这个分布属于指数族。

η是分布的自然参数（natural parameter ），比如伯努利分布中的Φ；T(y)是充分统计量（sufficient statistic ），个人理解是能充分体现数据特点的更低维的数据，在这里通常T(y)=y。式子看起来不友好，个人理解，无非是将一个分布写成了一个指数形式。概率P>0，而指数函数的也都是大于0的，通过b，a，T来修改指数函数得到我们想要的形式。

以Bernoulli分布为例：

所以我们可得，b(y)=1,η^T=log（Φ/1-Φ），a(η)=log(1-Φ），该分布中η为标量，所以η=log（Φ/1-Φ），两边以e为底，得

Φ=1/（1+e^η）。令人惊讶的是，这恰好就是我们的logistics function。其建立的是一种概率和自然参数的关系，在逻辑回归中我们的参数就是我们手里的样本数据，想对样本做一个二分类，自然而然联系二项分布，从而推出logistics function。

接着我们来看高斯分布，在线性回归中我们通过假设误差ε~N(0,σ^2),然后通过最大似然推出目标是最小化

显然，与方差σ^2无关，为了简化，先设其为1.所以我们可以将高斯分布写成：

然后一一对应可以得到：

我们可以看到，不同的分布对应的解析式是不一样的。比如我们要对一个问题建模，首先我们分析这些数据服可能从什么分布，最简单的就对0，1问题建模必然首选伯努利分布，根据GLM推出我们需要的hypothesis。下面就介绍怎么使用GLM。

要想使用GLM解决问题，我们必须遵守三个假设：

1.y丨x；θ~exponentialfamily（η），即给定x和θ，y是服从指数族的某个分布的。

2.h(x)=E[y丨x]。以logistics regression为例，我们预测的h(x)是一个概率，所以有

hθ(x) = p(y = 1|x; θ) = 0 · p(y =0|x; θ) + 1 · p(y = 1|x; θ) = E[y|x; θ].)

3.η = θTx ;即η和x满足线性关系

根据这三个假设，我们就能得到线性回归和逻辑回归中的假设是如何来的。线性回归中：

逻辑回归中：

这也解释了当我们做LR二分类的时候为什么会采取该假设，因为二分类是服从伯努利分布的，而我们从伯努利分布推出上式，自然就该应用此假设。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。