机器学习（课程笔记4）——逼近参数算法牛顿方法;

最新推荐文章于 2024-04-17 17:55:44 发布

weixin_30920597

最新推荐文章于 2024-04-17 17:55:44 发布

阅读量485

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/g6z3z/p/9268647.html

版权

一.牛顿法（Newton's method）

上一节学习了一种二分类算法logistic regression,其中涉及到求likelihood function中的参数使$l(\theta)$maxmizing。当时用的是梯度上升（grdient ascent)方法。现在介绍一种对logistic regression收敛更快的算法。使用Newton's method 对假设函数是有要求的，假设函数要满足一系列的条件。

　　一.函数 f find $\theta\in\Re$ st. $f(\theta)=0$的$\theta$，

有$\theta^{(1)}=\theta^{(0)}-\Delta=\theta^{(0)}-\frac{f(\theta^{(0)})}{f'(\theta^{(0)})}$

推广为：$\theta^{(t+1)}=\theta^{(t)}-\frac{f(\theta^{(t)})}{f'(\theta^{(t)})}$

　　二.当 $l(\theta)$ want $\theta$ st. $l'(\theta)=0$

有$\theta^{(t+1)}=\theta^{(t)}-\frac{f'(\theta^{(t)})}{f''(\theta^{(t)})}$

　　三.$\theta$是向量时,推广为，

$\theta^{(t+1)}=\theta^{(t)}-H^{-1}\nabla_\theta{l(\theta)}$

，$\nabla_\theta{l(\theta)}$是l($\theta$)对$\theta_i$的导数，H为n*n的Hessian矩阵（二阶偏导），n为$\theta$的维数。当然牛顿法的计算代价因为求逆是比较大的，实际上在n不是太大时牛顿法仍是很快的。

二.指数族分布（exponential family distribution）

　　前面利用高斯分布^{（概率推导一节）}导出了最小二乘，用伯努利分布导出了logistics regression。这两个分布都属于指数族分布，常见的如泊松分布，都是指数族分布。

在回归的例子中，经过假设随机噪声为高斯分布后，得到$y|x;\theta\sim\mathcal{N}(\mu,\sigma^2)$
$P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$；在上一节的证明中$\sigma^2$是不影响$\theta$的最小值的。
in classification example，二分类模型为$P(y|x;\theta)$~Bernoulli($\Phi$)
$\mu,\Phi$是$\theta和x$的函数。

　　如果一种分布可以写成如下形式，就称它是指数族分布，

　　　　　　　　　　　　　　　证明一：Bernoulli是指数族分布（近似定义$\Phi$是$\theta$的函数）

　　它和ｓｉｇｍｏｉｄ函数相似

　　　　　　　　　　　　　　证明二：Gaussion是指数族分布（选择任意的$\sigma^2$不会改变$h_{\theta}(x)$)的值，即假设$\sigma^2=1，\mu是\theta的函数$

三.

广义线性模型（GLM-generalized linear models）

构造GLM

转载于:https://www.cnblogs.com/g6z3z/p/9268647.html

weixin_30920597

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。