cs229-lecture4-学习笔记

牛顿方法(Newton method )

推导过程:如图求零点问题

将逐渐逼近零点。所以 处的导数为 ,即
,以此类推,得
这就是牛顿迭代法的递推公式,它是二阶收敛的。
牛顿方法和梯度下降法一样可以用来求解最大/小化问题中的参数,
(即求 的零点,因为局部最大/小值往往落在导数为0处)。
更一般的牛顿方法:
其中H称为Hessian矩阵,  ,H是个nxn的矩阵,因此当n(特征值的数量)非常大时,计算H的逆代价会很大。
由于其是二阶收敛的方法,大多数情况下收敛速度会快于梯度下降法。

指数分布函数族(exponential family distribution )

定义:
其中 称为自然参数(natural parameter )(可能是实数或向量),T(y)称为充分统计量(sufficient statistics)(一般情况下,T(y)=y)
因此由不同的a,b,T,可以得到不同的分布函数。
对于伯努利(0-1)分布 ,即
所以
则对于 ,可得 ,即sigmoid函数。
对于 代入得
因此对于伯努利(0-1)分布可以表示为特定参数的指数分布函数族。
类似的,对于正态(高斯)分布,由于 实际上不影响最终 的选取,为了简化运算,
于是我们令 =1,即对于
可以对于高斯分布 可以便是为特定参数的指数分布函数族。
还有许多其他分布函数包括泊松分布, 分布也可以表示为特定的指数分布函数。

广义线性模型(generalized linear model )

前面的课程说到了两个基于 建模的算法,
一个是 ,假设y服从正态(高斯)分布,得到(基于最小二乘的)线性回归算法;
一个是 ,假设y服从伯努利分布,得到logistics 回归算法。
这些都可以称作广义线性模型。
定义:满足以下条件
(1): ,即 服从指数分布函数族的某一分布
(2):对于给定的x,目标(输出)值是期望 ,找到假设函数使
(3): (设计决策)
称为广义线性模型。
所以对于 伯努利(0-1)分布

称为正则响应函数(canonical response function),而 称为正则关联函数(canonical link function)。

类似的,对于 正态(高斯)分布


而对于 多项分布式(multinomial),有如下算法

softmax回归算法(softmax regression) 

定义: ,参数为
,所以
所以以需要将 当作参数即可。

再定义: ,所以 其中 表示T(y)的第i个元素。
所以

其中



同样可以解出

所以

假设有训练集中有m个训练样本,


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值