广义线性回归与逻辑回归理解

最新推荐文章于 2023-07-04 18:01:51 发布

wtysuper6

最新推荐文章于 2023-07-04 18:01:51 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：广义线性回归 GLM 逻辑回归指数族

本文链接：https://blog.csdn.net/a763470525/article/details/102861885

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言

在学习机器学习的过程中，我们最开始通常会接触各种类型的回归模型。例如线性回归用来模拟一条线性函数满足函数周围的数据到达该直线的误差最小；逻辑回归用来确定以某条线性函数为基础，其两边的数据可以分为两种类型。我们往往只知道模型可以处理什么样的逻辑，做什么样的事情，却对为什么是这个模型了解甚少。本文通过参考多种资料，通过对广义线性回归的理解出发，来阐述其他回归模型的生成原理。所写纯属个人理解，如果错误欢迎指正。

1、指数分布族

这里阐述指数族的目的是为了说明广义线性模型(Generalized Linear Models)GLM，因为广义线性模型的提出是由指数族而来。

另外需要知道凡是符合指数族分布的随机变量，都可以用广义线性回归进行分析。

下面是指数分布族的公式定义：

$p(y;\eta )=b(y))exp(\eta^{T}T(y)-a(\eta )))$

下面是公式中的参数：（可以通过后面具体例子的推导来理解）

η：分布的自然参数（也就是说跟分布有关）
T(y)：充分统计量（对于我们考虑的分布情况，通常情况下 T(y)=y）
a(η)：log partition function， $\boldsymbol{e^{-a(\eta )}}$ 本质上起着规范化常数的作用，保证概率分布 $\boldsymbol{\sum p(y;\eta )}$ 为1

当 T(y) 被固定时， $a(\eta )$ 、 b(y) 就定义了一个以 $\eta$ 为参数的一个指数分布。我们变化 $\eta$ 就得到这个分布的不同分布。

而大多数的概率分布都属于指数分布族，如：

伯努利分布（Bernoulli）：对 0、1 问题进行建模；
二项分布（Multinomial）：对 K 个离散结果的事件建模；
泊松分布（Poisson）：对计数过程进行建模，比如网站访问量的计数问题，放射性衰变的数目，商店顾客数量等问题；
伽马分布（gamma）与指数分布（exponential）：对有间隔的正数进行建模，比如公交车的到站时间问题；
β 分布：对小数建模；
Dirichlet 分布：对概率分布进建模；
Wishart 分布：协方差矩阵的分布；
高斯分布（Gaussian）

而如何通过对应的分布情况获得相应的模型呢，那么下面就通过一些例子来推导出，不同的分布情况下所获得的模型是什么样的，当然在进行推倒之前我们需要了解下广义线性模型，以及指数族与广义线性模型的关系。

2、广义线性模型

要确定一组数据是否满足广义线性模型，需要满足其三个假设：

1. 定义线性预测算子

$\eta =\theta ^{T}x$

2. 定义y的估计值

$h_{\theta }(x)=E[y|x;\theta ]$

3. 定义 y 的估值概率分布属于某种指数分布族：

$Pr(y|x;\theta)=b(y)exp(\eta ^{T}T(y)-a(\eta ))$

通过这三条假设，结合样本的分布情况，通过将样本的分布情况转化为指数族的形式，得到最终的T，a，b以及 $\eta$ ，从而得到满足分布情况下的模型。

2.1、GLM推导逻辑回归

接下来按照上面GLM作出的假设条件来推导逻辑回归。

对于二分类问题，其样本点在结果上非0即1，因此很容易想到其样本满足伯努利分布，因此：

$y|x;\theta \sim Bernoulli(h_{\theta }(x))))$

对于伯努利分布来说。假定通过决策函数处理之后，不同的自变量x通过决策函数得到结果等于1和等于0的概率分别为

$p(y=1|x;\theta )=h_{\theta }(x)$

$p(y=0|x;\theta)=1-h_{\theta }(x)$

因而得到等式：

$p(y;h_{\theta }(x))=h_{\theta }(x)^{y}(1-h_{\theta })^{1-y}$

$=exp(ylog(h_{\theta }(x) + (1-y)log(1-h_{\theta })))$

$=exp(log(\frac{h_{\theta }(x)}{1-h_{\theta }(x)})y + log(1-h_{\theta }(x)))$

参照指数分布族的各位置参数，可以得到：

b(y)=1

T(y)=y

$\eta =log(\frac{h_{\theta }(x)}{1-h_{\theta }(x)})$

$a(\eta )=-log(1-h_{\theta }(x))$

由第三个条件进行推倒

$\eta =log(\frac{h_{\theta }(x)}{1-h_{\theta }(x)})$

$\eta =\theta ^{T}x$

最终可以得到决策函数

$h_{\theta }(x) = \frac{1}{1+e^{-\theta ^{T}x}}$

也就是sigmoid函数

2.2、GLM推导线性回归

接下来按照上面GLM作出的假设条件来推导线性回归。

由于线性回归的损失值也就是噪音值符合高斯分布，即

$y|x;\theta \sim N(\mu ,\sigma ^{2})$

由于 $\sigma ^{2}$ 的值与 $\theta$ 和 $h_{\theta }(x)$ 无关，因此为了简化证明，我们令 $\sigma ^{2}=1$ ，

原因如下，通过极大似然估计估算参数为多少时满足误差最小

$\iota (\theta)=logL(\theta )$

$=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{(y^{(i)} - \theta ^{T}x^{(i)})^{2}}{2\sigma ^{2}} \right )$

$=\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{(y^{(i)} - \theta ^{T}x^{(i)})^{2}}{2\sigma ^{2}} \right )$

$=mlog\frac{1}{\sqrt{2\pi }\sigma }-\frac{1}{\sigma ^{2}}\cdot \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$

事实证明，找出最合适的参数使得误差最小，公式中最终关注的是下面部分最小，才可以让以上函数最大

$lostfunc=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$

因此与 $\sigma ^{2}$ 无关，因此为了推导简单，我们令 $\sigma ^{2}=1$ ，

$p(y;h_{\theta }(x))=\frac{1}{\sqrt{2\pi }}exp\left ( -\frac{1}{2}(y-h_{\theta }(x))^{2} \right )$

$=\frac{1}{\sqrt{2\pi }}exp\left ( -\frac{1}{2}y^{2} \right )exp\left ( h_{\theta }(x)y -\frac{1}{2}h_{\theta }(x)^{2} \right )$

因此得到

$b(y)=\frac{1}{\sqrt{2\pi }}exp\left ( -\frac{1}{2}y^{2} \right )$

T(y)=y

$\eta = h_{\theta }(x)$

$a(\eta )=\frac{1}{2}h_{\theta }(x)^{2}$

由第三个条件进行推倒

$\eta = h_{\theta }(x)$

$\eta =\theta ^{T}x$

最终得决策函数为

$h_{\theta }(x)=\theta ^{T}x$

也就是线性回归的决策函数

3、总结

对于一组模型，首先我们要确定我们最终的结果要满足什么样的分布，在确定了分布之后，如果模型符合指数族分布形式，那么我们可以根据分布条件和指数族的对应关系，推导出指数族的4个参数，在获得参数的过程中我们就可以获得对应的决策函数，因而获得我们需要的模型，在获得模型之后我们就可以根据不同的条件选择不同的优化策略，从而获取对应的参数值。

内容参考：

斯坦福大学机器学习课CS229

该作者理解：https://fighterhit.oschina.io/2017/12/24/machine_learning_notes/%E4%BB%8E%E5%B9%BF%E4%B9%89%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B%E7%90%86%E8%A7%A3%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92/