cs229-lecture4-学习笔记

最新推荐文章于 2021-12-18 16:31:30 发布

BiggerQ

最新推荐文章于 2021-12-18 16:31:30 发布

阅读量913

点赞数

分类专栏：学习笔记文章标签： cs229

本文链接：https://blog.csdn.net/BiggerQ/article/details/38357681

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

牛顿方法（Newton method ）

推导过程：如图求零点问题

$\theta^{(t)}$ 将逐渐逼近零点。所以 $f$ 在 $\theta^{(0)}$ 处的导数为 $f{}'(\theta^{(0)})=\frac{f(\theta^{(0)})}{\triangle}$ ，即 $\triangle=\frac{f(\theta^{(0)})}{f{}'(\theta^{(0)})}$

得 $\theta^{(1)}=\theta^{(0)}-\frac{f(\theta^{(0)})}{f{}'(\theta^{(0)})}$ ，以此类推，得 $\theta^{(t+1)}=\theta^{(t)}-\frac{f(\theta^{(t)})}{f{}'(\theta^{(t)})}$

这就是牛顿迭代法的递推公式，它是二阶收敛的。

牛顿方法和梯度下降法一样可以用来求解最大/小化问题中的参数，

如 $\theta^{(t+1)}=\theta^{(t)}-\frac{l{}'(\theta)}{l{}''(\theta)}$ （即求 $l{}'(\theta)$ 的零点，因为局部最大/小值往往落在导数为0处）。

更一般的牛顿方法： $\theta^{(t+1)}=\theta^{(t)}-H^{-1}\bigtriangledown_{\theta}l(\theta)$

其中H称为Hessian矩阵， $H_{ij}=\frac{\partial^{2}l}{\partial\theta_{i}\partial\theta_{j}}$ ，H是个nxn的矩阵，因此当n（特征值的数量）非常大时，计算H的逆代价会很大。

由于其是二阶收敛的方法，大多数情况下收敛速度会快于梯度下降法。

指数分布函数族（exponential family distribution ）

定义： $P(y;\eta)=b(y)exp(\eta^{T}T(y)-a(\eta))$

其中 $\eta$ 称为自然参数（natural parameter ）（可能是实数或向量），T(y)称为充分统计量（sufficient statistics）(一般情况下，T(y)=y)

因此由不同的a，b，T，可以得到不同的分布函数。

对于伯努利(0-1)分布 $B(\phi)$ ，即 $P(y=1;\phi)=\phi,P(y=0;\phi)=1-\phi$

所以

$P(y;\phi)=\phi^{y}(1-\phi)^{1-y}\\ =exp(log(\phi^{y}(1-\phi)^{1-y}))\\ =exp(ylog(\phi)+(1-y)log(1-\phi))\\ =exp(ylog(\frac{\phi}{1-\phi})+log(1-\phi))$

令 $b(y)=1,\eta=log(\frac{\phi}{1-\phi}),T(y)=y,a(\eta)=-log(1-\phi)$ ，

则对于 $\eta=log(\frac{\phi}{1-\phi})$ ，可得 $\phi=\frac{1}{1+e^{-\eta}}$ ，即sigmoid函数。

对于 $a(\eta)=-log(1-\phi)$ 将 $\phi$ 代入得 $a(\eta)=log(1+e^{\eta})$

因此对于伯努利(0-1)分布可以表示为特定参数的指数分布函数族。

类似的，对于正态（高斯）分布，由于 $\sigma$ 实际上不影响最终 $\theta$ 的选取，为了简化运算，

于是我们令 $\sigma$ =1，即对于 $N(\mu,1)$ ，

有

$P(y;\mu)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-\mu)^{2})\\ =\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^{2})\cdot exp(\mu y-\frac{1}{2}\mu^{2})$

令 $b(y)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^{2}),\eta=\mu,T(y)=y,a(\eta)=-\frac{1}{2}\mu^{2}=-\frac{1}{2}\eta^{2}$

可以对于高斯分布 $N(\mu,1)$ 可以便是为特定参数的指数分布函数族。

还有许多其他分布函数包括泊松分布， $\gamma$ 分布也可以表示为特定的指数分布函数。

广义线性模型（generalized linear model ）

前面的课程说到了两个基于 $P(y|x;\theta)$ 建模的算法，

一个是 $y\in\mathbb{R}$ ，假设y服从正态（高斯）分布，得到（基于最小二乘的）线性回归算法；

一个是 $y\in\left\{0,1\right\}$ ，假设y服从伯努利分布，得到logistics 回归算法。

这些都可以称作广义线性模型。

定义：满足以下条件

（1）： $y|x;\theta \sim ExpFamily(\eta)$ ，即 $y|x;\theta$ 服从指数分布函数族的某一分布

（2）：对于给定的x，目标（输出）值是期望 $E[T(y)|x]$ ，找到假设函数使 $h_{\theta}(x)=E[T(y)|x]$

（3）： $\eta=\Theta^{T}x,(\eta_{i}=\theta_{i}^{T}x)$ （设计决策）

称为广义线性模型。

所以对于 伯努利(0-1)分布 $B(\phi)$ ，

$h_{\theta}(x)=E[y|x;\theta]\\ =0\cdot P(y=0|x;\theta)+1\cdot P(y=1|x;\theta)\\ =P(y=1|x;\theta)\\ =\phi\\ =\frac{1}{1+e^{-\eta}}\\ =\frac{1}{1+e^{-\theta^{T}x}}$

$g(\eta)=E[y;\eta]=\frac{1}{1+e^{-\eta}}$ 称为正则响应函数(canonical response function)，而 $g^{-1}$ 称为正则关联函数(canonical link function)。

类似的，对于 正态（高斯）分布 $N(\mu,\sigma^{2})$ ，

$h_\theta(x)=E[y|x;\theta]\\ =\mu=\eta\\ =\theta^{T}x$

而对于 多项分布式(multinomial)，有如下算法

softmax回归算法(softmax regression)

定义： $y\in\left\{1,2,...k\right\}$ ，参数为 $\phi_{1},\phi_{2},...\phi_{k}$ ，

有 $P(y=i)=\phi_{i}$ ，所以 $\phi_{k}=1-(\phi_{1}+\phi_{2}+...+\phi_{k-1})$

所以以需要将 $\phi_{1},\phi_{2},...\phi_{k-1}$ 当作参数即可。

令

$T(1)=\begin{bmatrix} 1\\ 0\\ 0\\ \vdots\\ 0 \end{bmatrix}, T(2)=\begin{bmatrix} 0\\ 1\\ 0\\ \vdots\\ 0 \end{bmatrix},\cdots , T(k-1)=\begin{bmatrix} 0\\ 0\\ \vdots\\ 0\\ 1 \end{bmatrix}, T(k)=\begin{bmatrix} 0\\ 0\\ \vdots\\ 0\\ 0 \end{bmatrix}\in\mathbb{R}^{k-1}$

再定义： $\emph{1}\left\{true\right\}=1,\emph{1}\left\{false\right\}=0$ ，所以 $T(y)_{i}=\emph{1}\left\{y=i\right\}$ 其中 $T(y)_{i}$ 表示T(y)的第i个元素。

所以

$P(y)=\phi_{1}^{\emph{1}\left\{y=1\right\}}\cdot\phi_{2}^{\emph{1}\left\{y=2\right\}}...\phi_{k}^{\emph{1}\left\{y=k\right\}}\\ =\phi_{1}^{T(y)_{1}}\cdot\phi_{2}^{T(y)_{2}}...\phi_{k-1}^{T(y)_{k-1}}\cdot\phi_{k}^{1-\sum_{j=1}^{k-1}T(y)_{j}}\\ =exp(log(\phi_{1}^{T(y)_{1}}\cdot\phi_{2}^{T(y)_{2}}...\phi_{k-1}^{T(y)_{k-1}}\cdot\phi_{k}^{1-\sum_{j=1}^{k-1}T(y)_{j}}))\\ =exp((T(y)_{1}log\phi_{1})+(T(y)_{2}log\phi_{2})+...+(T(y)_{k-1}log\phi_{k-1})+(1-\sum_{j=1}^{k-1}T(y)_{j})log\phi_{k})\\ =exp((T(y)_{1}log(\phi_{1}/\phi_{k}))+(T(y)_{2}log(\phi_{2}/\phi_{k}))+...+(T(y)_{k-1}log(\phi_{k-1}/\phi_{k}))+log(\phi_{k}))\\ =b(y)exp(\eta^{T}T(y)-a(\eta))$

其中

$\eta=\begin{bmatrix} log(\phi_{1}/\phi_{k})\\ log(\phi_{2}/\phi_{k})\\ \vdots\\ log(\phi_{k-1}/\phi_{k}) \end{bmatrix}^{T}\\$ ，

$a(\eta)=-log(\phi_{k})$ ，

$b(y)=1$

同样可以解出

$\phi_{i}=\frac{e^{\eta_{i}}}{1+\sum_{j=1}^{k-1}e^{\eta_{j}}}=\frac{e^{\eta_{i}}}{e^{\eta_{k}}+\sum_{j=1}^{k-1}e^{\eta_{j}}}\\ =\frac{e^{\eta_{i}}}{\sum_{j=1}^{k}e^{\eta_{j}}}\\ =\frac{e^{\theta_{i}^{T}x}}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x}}$

所以

$h_{\theta}(x)=E[T(y)|x;\Theta]\\ =E\begin{bmatrix} \left.\begin{matrix} \emph{1}\left\{y=1\right\}\\ \emph{1}\left\{y=2\right\}\\ \vdots\\ \emph{1}\left\{y=k-1\right\} \end{matrix}\right| &X; &\Theta \end{bmatrix}=\begin{bmatrix} \phi_{1}\\ \phi_{2}\\ \vdots\\ \phi_{k-1} \end{bmatrix}\\ =\begin{bmatrix} exp(\theta_{1}^{T}x)/\sum_{j=1}^{k}exp(\theta_{j}^{T}x)\\ exp(\theta_{2}^{T}x)/\sum_{j=1}^{k}exp(\theta_{j}^{T}x)\\ \vdots\\ exp(\theta_{k-1}^{T}x)/\sum_{j=1}^{k}exp(\theta_{j}^{T}x) \end{bmatrix}$

假设有训练集中有m个训练样本， $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)})...(x^{(m)},y^{(m)})$

有

$l(\Theta)=log(L(\Theta))=log(\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta))\\ =\sum_{i=1}^{m}log(P(y^{(i)}|x^{(i)};\theta))\\ =\sum_{i=1}^{m}log\prod_{l=1}^{k}\left(\frac{exp(\theta_{l}^{T}x^{(i)})}{\sum_{j=1}^{k}exp(\theta_{j}^{T}x^{(i)})}\right)$