本节主要是我看了网易公开课上的Andrew Ng的机器学习公开课第四节所做的笔记加上自己的一些整理,将它发上来供参考,由于水平有限,可能有错误。
这节视频中,Andrew Ng主要讲了三个方面,分别是牛顿法,指数分布家族和广义线性回归(GLMS)。
本节介绍的指数分布函数主要是为广义线性回归所服务的。广义线性回归对回归值是随机变量(这主要是因为误差导致实际值y是随机变量)的情况下的建模提供了一种可行的建模方式。我认为,广义线性模型一个重要的应用就是对回归值是随机变量情况对回归值进行建模。
一 牛顿法
牛顿法与梯度法一样,是一种常见的迭代优化方法。牛顿法在接近收敛值时呈指数收敛,表现性质很优良,但是在远离收敛值的地方则收敛慢甚至不收敛。在二维矩阵下用Hessian矩阵的逆与梯度的乘积做变化步长。关于Hessian矩阵的理解,网上有很多,它也不是本节重点,这里不赘述了。
二 指数分布
指数分布家族是定义的一组分布式,伯努利分布及高斯分布等分布都可以看做指数分布的特殊形式。指数分布的公式如下:
p(y;η)=b(y)exp(ηTT(y)−a(η));
p(y;η) 表示y在 η 下概率,但是它不是条件概率,因为 η 不是随机变量。而对于 ηT 我认为是转置的意思。上式还表示为:
p(y;η)=1Z(η)b(y)exp(ηTT(y)),其中a(η)=logZ(η)
Z(η)=∫yb(y)exp[ηTT(y)]dy,(在y可以取到的空间内所有求积分,符号原因不好表示) 表示归一化项。 T(y) 表示的是未知分布P的参数 y 的充分统计量。(统计量是样本数据的函数,充分统计量的意思是当且仅当
- 指数家族是唯一的充分统计量是有限大小的分布家族
- 指数家族是唯一存在共轭先验的分布家族
- 指数家族为认为选定限制下作的假设最少的分布家族
- 指数家族是广义线性模型的核心内容
- 指数家族是变分推断(variational inference)的核心内容
下面,带入两个具体的例子(伯努利分布和高斯分布)
1.伯努利分布
首先,我们假设 p(y=1;ϕ)=ϕ;p(y=0;ϕ)=1−ϕ,这个就是定义。
p(y;ϕ)=ϕy(1−ϕ)(1−y)=exp[ylnϕ+(1−y)ln(1−ϕ)]=exp[ylnϕ1−ϕ+ln(1−ϕ)]其中从定义来讲y=0||y=1(因为伯努利分