指数分布族和广义线性模型

最新推荐文章于 2023-04-09 21:45:29 发布

咸鱼小二

最新推荐文章于 2023-04-09 21:45:29 发布

阅读量4.8k

点赞数 1

分类专栏：机器学习CS229个人笔记文章标签：机器学习视频

本文链接：https://blog.csdn.net/qq_33667088/article/details/70692060

版权

本文是Andrew Ng机器学习课程笔记，重点介绍了牛顿法、指数分布家族和广义线性模型（GLMs）。指数分布家族包括伯努利分布和高斯分布，是GLMs的基础。GLMs用于建模回归值为随机变量的情况，如线性回归和逻辑回归。文章还探讨了指数分布家族在变分推断中的作用，并举例说明了如何使用GLMs进行建模。

摘要由CSDN通过智能技术生成

本节主要是我看了网易公开课上的Andrew Ng的机器学习公开课第四节所做的笔记加上自己的一些整理，将它发上来供参考，由于水平有限，可能有错误。

这节视频中，Andrew Ng主要讲了三个方面，分别是牛顿法，指数分布家族和广义线性回归（GLMS）。

本节介绍的指数分布函数主要是为广义线性回归所服务的。广义线性回归对回归值是随机变量（这主要是因为误差导致实际值y是随机变量）的情况下的建模提供了一种可行的建模方式。我认为，广义线性模型一个重要的应用就是对回归值是随机变量情况对回归值进行建模。

一牛顿法

牛顿法与梯度法一样，是一种常见的迭代优化方法。牛顿法在接近收敛值时呈指数收敛，表现性质很优良，但是在远离收敛值的地方则收敛慢甚至不收敛。在二维矩阵下用Hessian矩阵的逆与梯度的乘积做变化步长。关于Hessian矩阵的理解，网上有很多，它也不是本节重点，这里不赘述了。

二指数分布

指数分布家族是定义的一组分布式，伯努利分布及高斯分布等分布都可以看做指数分布的特殊形式。指数分布的公式如下：

$p (y; η) = b (y) e x p (η T T (y) - a (η)) ；$ $p(y;\eta) = b(y)exp(\eta^TT(y)-a(\eta))；$
$p(y;\eta)$ 表示y在 $\eta$ 下概率，但是它不是条件概率，因为 $\eta$ 不是随机变量。而对于 $\eta^T$ 我认为是转置的意思。上式还表示为：
$p (y; η) = 1 Z ( η ) b (y) e x p (η T T (y)), 其中 a (η) = l o g Z (η)$ $p(y;\eta) = {1 \over Z(\eta)}b(y)exp(\eta^TT(y)),其中a(\eta) = logZ(\eta)$

$Z(\eta) = \int_yb(y)exp[\eta ^TT(y)]dy,（在y可以取到的空间内所有求积分，符号原因不好表示）$ 表示归一化项。 $T(y)$ 表示的是未知分布P的参数 $y$ 的充分统计量。（统计量是样本数据的函数，充分统计量的意思是当且仅当 $T(y)$ 可以提供 $y$ 的全部信息。一般情况下，把统计值转化为统计量是会有一定的信息丢失的）常用的 $T(y) = y$ . 确定a,b,T就可以得到一种具体非分布。那么为什么要用这个指数分布家族的形式呢？