牛顿方法(Newton method )
推导过程:如图求零点问题
将逐渐逼近零点。所以
在
处的导数为
,即
得
,以此类推,得
这就是牛顿迭代法的递推公式,它是二阶收敛的。
牛顿方法和梯度下降法一样可以用来求解最大/小化问题中的参数,
如
(即求
的零点,因为局部最大/小值往往落在导数为0处)。
更一般的牛顿方法:
其中H称为Hessian矩阵,
,H是个nxn的矩阵,因此当n(特征值的数量)非常大时,计算H的逆代价会很大。
由于其是二阶收敛的方法,大多数情况下收敛速度会快于梯度下降法。
指数分布函数族(exponential family distribution )
定义:
其中
称为自然参数(natural parameter )(可能是实数或向量),T(y)称为充分统计量(sufficient statistics)(一般情况下,T(y)=y)
因此由不同的a,b,T,可以得到不同的分布函数。
对于伯努利(0-1)分布
,即
所以
令
,
则对于
,可得
,即sigmoid函数。
对于
将
代入得
因此对于伯努利(0-1)分布可以表示为特定参数的指数分布函数族。
类似的,对于正态(高斯)分布,由于
实际上不影响最终
的选取,为了简化运算,
于是我们令
=1,即对于
,
有
令
可以对于高斯分布
可以便是为特定参数的指数分布函数族。
还有许多其他分布函数包括泊松分布,
分布也可以表示为特定的指数分布函数。
广义线性模型(generalized linear model )
前面的课程说到了两个基于
建模的算法,
一个是
,假设y服从正态(高斯)分布,得到(基于最小二乘的)线性回归算法;
一个是
,假设y服从伯努利分布,得到logistics 回归算法。
这些都可以称作广义线性模型。
定义:满足以下条件
(1):
,即
服从指数分布函数族的某一分布
(2):对于给定的x,目标(输出)值是期望
,找到假设函数使
(3):
(设计决策)
称为广义线性模型。
所以对于
伯努利(0-1)分布
,
称为正则响应函数(canonical response function),而
称为正则关联函数(canonical link function)。
类似的,对于
正态(高斯)分布
,
而对于
多项分布式(multinomial),有如下算法
softmax回归算法(softmax regression)
定义:
,参数为
,
有
,所以
所以以需要将
当作参数即可。
令
再定义:
,所以
其中
表示T(y)的第i个元素。
所以
其中
,
,
同样可以解出
所以
假设有训练集中有m个训练样本,
有