吴恩达机器学习之牛顿方法-CSDN博客

本文链接：https://blog.csdn.net/gdutLHD/article/details/78768131

牛顿方法原理

给定一个函数 $f(\theta)$ ,为了求解 $f(\theta)=0$ 时 $\theta$ 的值，可以用迭代方法逼近真实值

给定初始化值 $\theta_0$ ,使得 $f(\theta_0)=0$
求解 $f(\theta_1)=0$ 时 $\theta$ 的值，根据导数的定义有： $\theta_1=\theta_0-\frac{f(\theta_0)}{f\prime(\theta_0)}$

重复以上步骤可以得到： $\theta_{t+1}=\theta_t-\frac{f(\theta_t)}{f\prime(\theta_t)}$ ，为了最大化对数似然函数 $\psi(\theta)$ ，令 $\psi\prime(\theta)=f$ ,可以得到参数的迭公式 $\theta_{t+1}=\theta_t-\frac{\psi\prime(\theta_t)}{\psi\prime\prime(\theta_t)}=H^{-1}\triangledown_\theta\psi$ ，其中 $H$ 是 $Hessian$ 矩阵， $H_{ij}=\frac{\partial^2\psi}{\partial \theta_i \theta_j}= \begin{pmatrix} \frac{\partial^2\psi}{\partial \theta_1\theta_1} \frac{\partial^2\psi}{\partial \theta_1\theta_2} \cdots \frac{\partial^2\psi}{\partial \theta_1\theta_n} \\\\ \frac{\partial^2\psi}{\partial \theta_2\theta_1} \frac{\partial^2\psi}{\partial \theta_2\theta_2} \cdots \frac{\partial^2\psi}{\partial \theta_2\theta_n} \\\\ \vdots \\\\ \frac{\partial^2\psi}{\partial \theta_m\theta_1} \frac{\partial^2\psi}{\partial \theta_m\theta_2} \cdots \frac{\partial^2\psi}{\partial \theta_m\theta_n} \end{pmatrix}$

牛顿法求逻辑回归

$p(y=1\mid x;\theta)=h_\theta(x)$ ， $p(y=0\mid x;\theta)=1-h_\theta(x)$ ，那么有： $p(y\mid x;\theta)=h_\theta(x)^y(1-h_\theta(x)^{1-y})$
对数似然函数： $\psi(\theta)=\log L(\theta)=\log\prod_{i=1}^mp(y^i\mid x^i;\theta)$
　　　　　　　　　　 $=\log\prod_{i=1}^mh_\theta(x^i)^{y^i}(1-h_\theta(x^i)^{1-y^i})$
　　　　　　　　　　 $=\sum_{i=1}^m(y^i\log h_\theta(x^i)+(1-y^i)(\log h_\theta(x^i))$
损失函数定义为：
$J(\theta)=-\frac{1}{m}\psi(\theta)=-\frac{1}{m}\sum_{i=1}^m(y^i\log h_\theta(x^i)+(1-y^i)(\log h_\theta(x^i))$
似然函数最大化等价于损失函数最小化，参数更新公式为：
$\theta=\theta-\frac{f(\theta)}{f\prime(\theta)}=\theta-H^{-1}\triangledown_\theta \psi$ ，等价于：
$\theta_j=\theta_j-H^{-1}\frac{\partial \psi}{\partial \theta_j}$
$\frac{\partial \psi}{\partial \theta_j}=-\frac{1}{m}\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i$
$H_{ij}=\frac{\partial \psi}{\partial\theta_i\partial\theta_j}=\frac{\partial -\frac{1}{m}\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i}{\partial\theta_i}=-\frac{1}{m}\sum_{t=1}^mx_j^t\frac{\partial h_\theta(x^t)}{\partial\theta_i}$
　　 $=-\frac{1}{m}\sum_{t=1}^mx_j^t\frac{\partial h_\theta(x^t)}{\partial\theta^Tx^t}\frac{\partial\theta^Tx^t}{\partial\theta_i}$
　　 $=-\frac{1}{m}\sum_{t=1}^mx_j^th_\theta(x^t)(1-h_\theta(x^t))x_i^t$

指数分布

$p(y\mid\eta)=b(y)exp(\eta^TT(y)-a(\eta))$ ，其中 $\eta$ 是自然参数， $T(y)$ 是充分统计量，一般取 $T(y)=y$
当 $a,b,T$ 取不同值时，指数分布可以转化为各种分布

伯努利分布

由 $p(y=1;\phi)=\phi$ ，可知 $\begin{eqnarray}p(y;\phi)&=&\phi^y(1-\phi)^{1-y} \\ &=&exp(y\log \phi+(1-\phi)\log (1-\phi))　\\　 &=&exp(y\frac{\phi}{1-\phi}+\log(1-\phi))\end{eqnarray}$
令 $a(\eta)=-\log(1-\phi),b(y)=1,T(y)=y$ ，指数分布就等同于伯努利分布，此时有 $\eta=\log\frac{\phi}{1-\phi}$

高斯分布(假设 $\sigma=1$ )

$p(y;\eta)=\frac{1}{\sqrt{2\pi}}exp(-\frac{(y-\mu)^2}{2})=\frac{1}{\sqrt{2\pi}}exp(-\frac{y^2}{2})exp(\mu y-\frac{\mu^2}{2})$
令 $a(\eta)=\frac{\mu^2}{2},b(y)=\frac{1}{\sqrt{2\pi}}exp(-\frac{\mu^2}{2})$ ，高斯分布就等同于伯努利分布，此时有 $\eta=\mu$

广义线性模型

假设 $y\mid x;\theta$ 服从指数分布族 $Exp　family(\eta)$
假设对于给定x,目标函数 $h(x)=E(T(y)\mid x)$
假设 $\begin{cases} \eta=\theta^Tx & \eta\in R \\ \eta_i=\theta_i^Tx & \eta\in R^n \end{cases}$

当 $y\in\{0,1\}$ 时，即 $y$ 服从伯努利分布，广义线性模型变成了逻辑回归模型
当 $y\in R$ 时，且 $y$ 服从高斯分布，广义线性模型变成了线性回归模型
当 $y$ 服从不同分布时，广义线性模型会转换成不同模型

多项式分布与 $softmax$ 回归

$y\in\{1,2,\cdots,k\}，\theta=(\theta_1,\theta_2,\cdots,\theta_k)$
$p(y=i)=\phi_i,\phi_k=1-(\theta_1+\theta_2+\cdots+\theta_{k-1})$
令 $T(1)=\begin{pmatrix} 1,0 ,\cdots ,0 \end{pmatrix}^T$ ， $T(2)=\begin{pmatrix} 0,1 ,\cdots ,0 \end{pmatrix}^T$ ， $T(i)=\begin{pmatrix} 0 ,\cdots ,1,\cdots,0 \end{pmatrix}^T$ ， $T(k-1)=\begin{pmatrix} 0,0 ,\cdots ,0,1 \end{pmatrix}^T$ ， $T(k)=\begin{pmatrix} 0,0 ,\cdots ,0 \end{pmatrix}^T$ ，那么有 $T(y)_i=I(y=i)$ ， $T(y)_i$ 表示 $T(y)$ 的第 $i$ 个元素

$p(y)=\phi_1^{I(y=1)}\phi_2^{I(y=2)}\cdots\phi_k^{I(y=k)}$ $=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots\phi_k^{T(y)_{k-1}}\phi_k^{1-\sum_{j=1}^{k-1}T(y)_j}$
　　　 $=b(y)exp(\eta^TT(y)-a(\eta)$
其中 $a(\eta)=-\log(\phi_k),b(y)=1$ ， $\begin{pmatrix} \log\frac{\phi_1}{\phi_k},\log\frac{\phi_2}{\phi_k},\cdots,\log\frac{\phi_{k-1}}{\phi_k} \end{pmatrix}^T$
可以得到 $\phi_i=\frac{e^{\eta_i}}{1+\sum_{j=1}^{k-1}e^{\eta_j}},(\eta_j=\theta_i^Tx)$
根据目标函数的定义，可以得到：
$\begin{eqnarray} h_\theta(x)&=&ET(y)\mid x;\theta\\&=&E\begin{pmatrix} I(y=1)\mid x;\theta \\\\ I(y=2)\mid x;\theta \\\\ \vdots \\\\ I(y=k-1)\mid x;\theta \end{pmatrix}\\ &=&\begin{pmatrix} \phi_1 \\\\ \phi_2 \\\\ \vdots \\\\ \phi_{k-1} \\\\ \end{pmatrix}\\ &=&\begin{pmatrix} \frac{e^{\theta_1^Tx}}{1+\sum_{j=1}^{k-1}e^{\theta_j^Tx}}\\\\ \frac{e^{\theta_2^Tx}}{1+\sum_{j=1}^{k-1}e^{\theta_j^Tx}}\\\\ \vdots\\\\ \frac{e^{\theta_{k-1}^Tx}}{1+\sum_{j=1}^{k-1}e^{\theta_j^Tx}} \end{pmatrix}\end{eqnarray}$

具体的推导过程请看这篇文章http://blog.csdn.net/acdreamers/article/details/44663305
http://ufldl.stanford.edu/wiki/index.php/Softmax回归