一.牛顿法(Newton's method)
上一节学习了一种二分类算法logistic regression,其中涉及到求likelihood function中的参数使$l(\theta)$maxmizing。当时用的是梯度上升(grdient ascent)方法。现在介绍一种对logistic regression收敛更快的算法。使用Newton's method 对假设函数是有要求的,假设函数要满足一系列的条件。
一.函数 f find $\theta\in\Re$ st. $f(\theta)=0$的$\theta$,
有$\theta^{(1)}=\theta^{(0)}-\Delta=\theta^{(0)}-\frac{f(\theta^{(0)})}{f'(\theta^{(0)})}$
推广为:$\theta^{(t+1)}=\theta^{(t)}-\frac{f(\theta^{(t)})}{f'(\theta^{(t)})}$
二.当 $l(\theta)$ want $\theta$ st. $l'(\theta)=0$
有$\theta^{(t+1)}=\theta^{(t)}-\frac{f'(\theta^{(t)})}{f''(\theta^{(t)})}$
三.$\theta$是向量时,推广为,
$\theta^{(t+1)}=\theta^{(t)}-H^{-1}\nabla_\theta{l(\theta)}$
,$\nabla_\theta{l(\theta)}$是l($\theta$)对$\theta_i$的导数,H为n*n的Hessian矩阵(二阶偏导),n为$\theta$的维数。当然牛顿法的计算代价因为求逆是比较大的,实际上在n不是太大时牛顿法仍是很快的。
二.指数族分布(exponential family distribution)
前面利用高斯分布(概率推导一节)导出了最小二乘,用伯努利分布导出了logistics regression。这两个分布都属于指数族分布,常见的如泊松分布,都是指数族分布。
- 在回归的例子中,经过假设随机噪声为高斯分布后,得到$y|x;\theta\sim\mathcal{N}(\mu,\sigma^2)$
$P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$;在上一节的证明中$\sigma^2$是不影响$\theta$的最小值的。 - in classification example,二分类模型为$P(y|x;\theta)$~Bernoulli($\Phi$)
- $\mu,\Phi$是$\theta和x$的函数。
如果一种分布可以写成如下形式,就称它是指数族分布,
证明一:Bernoulli是指数族分布(近似定义$\Phi$是$\theta$的函数)
它和sigmoid函数相似
证明二:Gaussion是指数族分布(选择任意的$\sigma^2$不会改变$h_{\theta}(x)$)的值,即假设$\sigma^2=1,\mu是\theta的函数$
三.
广义线性模型(GLM-generalized linear models)
构造GLM