CS229 Lecture 4

最新推荐文章于 2020-09-18 21:06:49 发布

Light_blue_love

最新推荐文章于 2020-09-18 21:06:49 发布

阅读量196

点赞数

分类专栏： CS229

本文链接：https://blog.csdn.net/Light_blue_love/article/details/96771449

版权

CS229 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

CS229 Lecture 4

这节课听的也是不太懂，先把笔记记下来

课程要点：

牛顿方法
广义线性模型
指数分布族
多项式分布

牛顿方法
牛顿方法提供了一种求解极值的方法，它需要迭代的次数会较梯度下降、上升之类的算法少很多。

上图中左子图中有函数 $f (x)$ 要求解其与 $x$ 轴的交点，一种方法是选一点 $x_{0}$ ,计算其在对应的 $f(x_0)$ ,过 $x_0,f(x_0))$ 做一条切线与 $x$ 轴的交点为 $x_1$ ,如图中，中间子图。接着计算 $f(x_1)$ 的值，再过 $x_1,f(x_1))$ 做一条切线交 $x$ 轴于 $x_2$ ，如图中右子图。如此迭代直到 $f(x_?)=0$ 。

下面用公式表达其迭代过程(由于我们一般求解的是 $\theta$ 把上面的 $x$ 替换为 $\theta$ )：

$f(\theta)$ $f i n d$ $\theta$ $s.t\,\, f(\theta)$

$f^{'}(\theta^{(0)})=\frac{f(\theta^{(0)})}{\triangle}\,\,\,\,\,\,\,\,\triangle=\frac{f(\theta^{(0)})}{f^{'}(\theta^{(0)})}$

$\theta^{(1)}=\theta^{(0)}-\frac{f(\theta^{(0)})}{f^{'}(\theta^{(0)})}$

$\theta^{(t+1)}=\theta^{(t)}-\frac{f(\theta^{(t)})}{f^{'}(\theta^{(t)})}$

从上面的推导可以看出，牛顿方法的迭代规律，使用其求解似然函数 $L(\theta)$ :

$L(\theta)$ $w a n t$ $\theta$ $s . t$ $L^{'}(\theta)=0$

$\theta^{(t+1)}=\theta^{(t)}-\frac{L^{'}(\theta^{(t)})}{L^{''}(\theta^{(t)})}$

牛顿方法的收敛速度非常快,在收敛到较小时可以达到二次收敛的效果:

$error\rightarrow0.001 error\rightarrow0.00001 error$

如果需要迭代的 $\theta$ 并不是一个实数而是向量的画，牛顿方法的迭代公式为：
$\theta^{(t+1)}=\theta^{(t)}-H^{-1}\bigtriangledown_{\theta}L$
其中 $H$ 是 $H e s s i a n$ 矩阵，其形状为 $n * n$ 或 $(n + 1) * (n + 1)$ ,且 $H_{ij}=\frac{\partial^{2}L}{\partial\theta_{i}\partial\theta_{j}}$

虽然说牛顿迭代的次数要相对于梯度方法要少很多，但是如果矩阵 $H$ 并不小的话（特征数很多），计算这个矩阵的逆代价还是挺高的，所以整体下来耗费的计算量并不一定比梯度方法少。

牛顿方法求极致不论是极大还是极小其迭代公式都是一样的。

广义线性模型

前面学过的最小二乘使用的假设是高斯分布， $p(y|x;\theta)$ 其中 $y\in R$ ,还有逻辑回归，使用的是伯努利分布( $B e r n o u l l i$ )分布， $y\in \{0,1\}$ 。

实际上上面提到的高斯分布和伯努利分布都属于指数分布族( $e x p o n e n t i a l f a m i l y$ ),如果满足指数分布族那么分布函数可以被写成：
$p(y;\eta) = b(y)exp(\eta^{T}T(y) − a(\eta))$

其中 $\eta$ 被称为自然参数( $natural\,\,parameter$ )也叫标准参数( $canonical\,\,parameter$ )。 $T (y)$ 被称为充分统计量，在通常情况下 $T (y) = y$ ，最后 $a(\eta)$ 被称为 $log\,\,partition\,\,function$ 。其中 $T, a, b$ 的形式确定了 $p(y;\eta)$ 分布所属的类型，而 $\eta$ 则改变了此种分布的分布状态。例如伯努利分布函数 $p(y=1;\phi)=\phi$ ,当我们改变 $\eta$ 的时候，也就对应改变了 $\phi$ 。

伯努利分布是指数分族的一个特例：

$Ber(\phi)$ 对应于 $p(y=1;\phi)=\phi$

既然说伯努利分布是指数分布族的一个特例，那么将对应的 $T, a, b$ 都是啥？伯努利分布的结果只有两种 ${0,1\}$ 。
$p(y;\phi)=\phi^{y}(1-\phi)^{1-y}=exp(log(\phi^{y}(1-\phi)^{1-y}))\\ =exp(ylog\phi+(1-y)log(1-\phi))\\ =exp(ylog(\frac{\phi}{(1-\phi)})+log(1-\phi))$

从上面的公式可以看出 $\eta=log(\frac{\phi}{1-\phi})$ , $T (y) = y$ , $a(\eta)=-log(1-\phi)$ 和 $b (y) = 1$ ,可以得出 $\phi=\frac{1}{1+e^{-\eta}}$

高斯分布是指数分布族的一个特例

我们直到高斯分布 $N～(u,\sigma^{2})$ ，前面讨论其实 $\sigma^{2}$ 取多大其实对求解最大值并没有影响，为了推导方便设 $\sigma^{2}=1$ :
$\frac{1}{\sqrt{2\pi}}exp^{-\frac{1}{2}(y-\mu)^{2}}=\frac{1}{\sqrt{2\pi}}exp^{(-\frac{1}{2}y^2)}exp^{(\mu y-\frac{1}{2}\mu^2)}$

这里可以得到:
$\mu=\eta$

$T (y) = y$

$a(n)=\frac{\mu^{2}}{2}=\frac{\eta^2}{2}$

$b(y)=\frac{1}{\sqrt{2\pi}}exp^{(-\frac{1}{2}y^2)}$

其实还有很多分布如泊松分布、多项式分布也是指数分布族

广义线性模型(GLM)

根据基于 $x, y$ 的条件分布构建广义线性模型需要基于3个假设：

$y|x;\theta\sim Exponential\,\,Family$ 即给定 $x$ 及参数 $\theta$ ， $y$ 的分布服从指数分布族，这个指数分布族的参数是 $\eta$ 。
给定 $x$ ，我们目标是预测 $T (y)$ ,在大多数情况下 $T (y) = y$ ,这意味着我们我们学习到的模型 $h$ 其 $h (x) = E [y ∣ x]$ 。
输入 $x$ 和 $\eta$ 满足线性关系，通常情况下为 $\eta=\theta^Tx$ ,如果 $\eta$ 是向量的话满足 $\eta_i=\theta_{i}^{T}x$

如果我们模型能满足这些假设条件，我们就称其为广义线性模型，满足这个模型的话，会拥有很多优秀的属性，广义线性模型可以很好模拟不同的分布。

例如在逻辑回归里面，我们要预测的 $y\in\{0,1\}$ ,那么很自然的想到伯努利分布，即 $Bernoulli(\phi)$ 而 $E[y|x;\theta]=\phi$ 。

$h_{\theta}(x)=E[y|x;\theta]=\phi=1/(1+e^{-\eta})=1/(e^{-\theta^Tx})$

上式中第一个等式是因为伯努利的期望等于 $\phi$ ,第二个等式是基于前面推导的 $\phi$ 和 $\eta$ 的关系，第三个等式是因为等三个假设。

上面就得出来了逻辑回归的公式。其中 $g(\eta)=E[T(y);\eta]=1/(e^{-\eta})$ ,这个 $g$ 被称为正则响应函数(canonical response function)， $g^{-1}$ 被称为正则关联函数。

多项式分布和softmax regression

现在又一个多元分类问题，即 $y\in\{1,2,3,\cdots,k\}$ 。概率分布为 $p(y=i)=\phi_i$ ,现在有参数 $\phi_1,\phi_2,\cdots,\phi_k$ 。实际上 $\phi_k=1-\phi_1,\phi_2,\cdots,\phi_{k-1}$ 。所有 $k - 1$ 个参数 $\phi_1,\phi_2,\cdots,\phi_{k-1}$ 。

现在令 $T(1)=\begin{bmatrix} 1\\0\\\vdots\\0 \end{bmatrix}$ , $T(2)=\begin{bmatrix} 0\\1\\\vdots\\0 \end{bmatrix}$ , $\cdots\cdots$ $T(k-1)=\begin{bmatrix} 0\\0\\\vdots\\1 \end{bmatrix}$ , $T(k)=\begin{bmatrix} 0\\0\\\vdots\\0 \end{bmatrix}$

再定义下指示函数用来表示命题的真假，定义如下：

$1\{True\}=1$ 且 $1\{False\}=0$ ,例如 $1\{2=3\}=0$

有了指示函数可以使得 $T(y)_i=1\{y=i\}$ 。

$p(y)=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}\cdots\phi_k^{1\{y=k\}}=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots\phi_k^{1-{\sum{T(y)_i}}}\\= p(y;\eta) = b(y)exp(\eta^{T}T(y) − a(\eta))$

得出：
$b (y) = 1$
$a(\eta)=-log(\phi^k)$

$\eta=\begin{bmatrix} log(\phi^1/\phi^k)\\log(\phi^2/\phi^k)\\\vdots\\log(\phi^{k-1}/\phi^k) \end{bmatrix}$

$\eta_i=log{\frac{\phi_i}{\phi_k}}$

进而有 $e^{\eta_i}=\frac{\phi_i}{\phi_k}\rightarrow \phi_ke^{\eta_i}=\phi_i\rightarrow\phi_k\sum{e^{\eta_i}}=1\rightarrow \phi_i=\frac{e^{\eta_i}}{\sum_{j}^{k} e^{\eta^j}}$

我们知道 $p(y=i|x;\theta)=\phi_i=\frac{e^{\eta_i}}{\sum_{j}^{k} e^{\eta^j}}=\frac{e^{\theta_i^Tx}}{\sum_{j}^{k} e^{\theta_j^Tx}}$

我们这里的多分类问题被称为 $\,\,regression$ ,这是一种基于逻辑回归的衍生方法。
$h_\theta(x)=E[T(y)|x;\theta]=E\left[\begin{array}{c|c} 1\{y=1\}&\\1\{y=2\}&\\\vdots &x;\theta\\1\{y=k-1\}& \end{array}\right]=\begin{bmatrix} \phi_i\\\phi_2\\\vdots\\\phi_{k-1} \end{bmatrix}=\begin{bmatrix} \frac{e^{\theta_1^Tx}}{\sum_{j}^{k} e^{\theta_j^Tx}}\\\frac{e^{\theta_2^Tx}}{\sum_{j}^{k} e^{\theta_j^Tx}}\\\vdots\\\frac{e^{\theta_{k-1}^Tx}}{\sum_{j}^{k} e^{\theta_j^Tx}} \end{bmatrix}$

上式就是 $softmax\,\, regression$ 的拟合函数。

如果要求解最佳的 $\theta$ 时，需要对极大似然函数进行求解， $s o f t m a x$ 的的极大似然函数定义为：
$L(\theta)=\sum_{i=1}^{m}logp(y^{(i)};x^{(i)};\theta)=\sum_{i=1}^{m}log\prod_{l=1}^{k}(\frac{e^{\theta_{l}^Tx^{(i)}}}{\sum_{j}^{k} e^{\theta_j^Tx^{(i)}}})^{1\{y^{(i)=l}\}}$

使用牛顿法或者梯度上升方法求解最大值。

待理解！

Light_blue_love

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS229 Lecture 4

CS229 Lecture4这节课听的也是不太懂，先把笔记记下来课程要点：牛顿方法广义线性模型指数分布族多项式分布牛顿方法牛顿方法提供了一种求解极值的方法，它需要迭代的次数会较梯度下降、上升之类的算法少很多。上图中左子图中有函数f(x)f(x)f(x)要求解其与xxx轴的交点，一种方法是选一点x0x_{0}x0,计算其在对应的f(x0)f(x_0)f(x0),过(x0...
复制链接

扫一扫

专栏目录