斯坦福机器学习公开课（4）

最新推荐文章于 2022-11-06 11:37:29 发布

m0_37891619

最新推荐文章于 2022-11-06 11:37:29 发布

阅读量336

点赞数

分类专栏：机器学习斯坦福机器学习公开课文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37891619/article/details/77994703

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

斯坦福机器学习公开课

3 篇文章 0 订阅

订阅专栏

1、最速下降法和牛顿法

1.1 最速下降法

计算步骤如下：

（1）给定初始点 $x^{(1)}\in R^{(n)}$ ，允许误差 $\epsilon$ >0，置 $k=1$ ；

（2）计算搜索方向 $d^{(k)}=-\bigtriangledown f(x^{(k)})$ ；

（3）若 $||d^{(k)}||\leq \epsilon$ ，则停止计算；否则，从 $x^{(k)}$ 沿 $d^{(k)}$ 进行一维搜索，求 $\lambda_k$ ，使得

$f(x^{(k)}+\lambda_k d^{(k)}) = \min(f(x^{(k)}+\lambda d^{(k)}) )$

其中保证所求的 $\lambda_k \geq0$ ；

（4）置 $x^{(k+1)} = x^{(k)}+\lambda_k d^{(k)}$ ，置 $k=k+1$ ，转到步骤（2）。

1.2 牛顿法

设 $f(x)$ 是二次可微实函数，又设 $x^{(k)}$ 是 $f(x)$ 的极小值的一个估计， $f(x)$ 在 $x^{(k)}$ 的二阶泰勒展开式为：

$f(x) \approx f(x^{(k)})+\bigtriangledown f(x^{(k)})^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^T\bigtriangledown^2 f(x^{(k)})(x-x^{(k)})$

对上式求导得：
$\bigtriangledown f(x^{(k)})+\bigtriangledown^2 f(x^{(k)})(x-x^{(k)})=0$

设 $\bigtriangledown^2 f(x^{(k)})$ 可逆，得到牛顿法的迭代公式：

$x^{(k+1)} = x^{(k)}-\frac{\bigtriangledown f(x^{(k)})}{\bigtriangledown^2 f(x^{(k)})}$ .

当牛顿法收敛时，有下列关系： $||x^{(k+1)}- \overline{x}||\leq c||x^{(k)}-\overline{x}||^2$ ，因而其具有二次收敛性。

对于二次凸函数，牛顿法经过有限次迭代必定能达到极小值，这种性质称为二次终止性。

2、广义线性分布

广义高斯模型是基于指数分布族的，指数分布族的原型如下：
$P(y;\eta)=b(y)\exp(\eta^TT(y)-a(\eta))$

其中 $\eta$ 为自然参数，它可能是一个向量，而 $T(y)$ 叫做充分统计量，它也可能是一个向量，通常 $T(y)=y$ 。

2.1 伯努利分布

概率分布为： $P(y=1|x)=\phi$

则

$P(y|x)=\phi^y(1-\phi)^{(1-y)}=exp[y\log\phi+(1-y)\log(1-\phi)]=\exp[y\log(\frac{\phi}{1-\phi})+\log(1-\phi)]$

其中 $\eta=\log(\frac{\phi}{1-\phi})$ ，求得 $\phi=\frac{1}{1+\exp(-\eta)}$ 。若 $g{(\eta)}=\frac{1}{1+\exp(-\eta)}$ ，那么 $g{(\eta)}$ 为正则响应函数， $g{(\eta)}^{-1}$ 为正则关联函数。

2.2 高斯分布

概率密度函数为： $p(y|x)=\frac{1}{\sqrt(2\pi)\sigma}\exp(-\frac{(y-\mu)^2}{2\sigma^2})$

则

$p(y|x)=\frac{1}{\sqrt(2\pi)\sigma}\exp(-\frac{(y-\mu)^2}{2\sigma^2})=\frac{1}{\sqrt(2\pi)\sigma}\exp(-\frac{(y^2+\mu^2-2y\mu)}{2\sigma^2})=\frac{1}{\sqrt(2\pi)\sigma}\exp(-\frac{y^2}{2\sigma^2})\exp(\frac{2y\mu}{2\sigma^2}-\frac{\mu^2}{2\sigma^2})$

2.3 广义线性回归的三个假设

（1） $y|x;\theta$ 服从参数为 $\eta$ 的指数族分布；

（2）给定 $x$ 后，我们希望的输出为： $h(x)=E(T(y)|x)$ ;

（3） $\eta=\theta^Tx[\eta_i=\theta_i^Tx]$ .

2.3.1 伯努利分布

伯努利分布满足广义线性回归的三个假设，其中 $h(x)=\phi=\frac{1}{1+\exp(-\eta)}=\frac{1}{1+\exp(-\theta x)}$ 。

2.3.2 softmax回归

$y\in{1,2,...,k}$

参数： $\phi_1, \phi_2,...,\phi_{k}$ ，其中 $P(y=i)=\phi_i$ 。其中 $\phi_k=1-\sum_{i=1}^{k-1}\phi_i$ 。

对于 $y\in{1,2,...,k}$ ，

$T(1)=[1,0,...,0]^T$ ， $T(2)=[0,1,...,0]^T$ ，…， $T(k-1)=[0,0,...,1]^T$ ， $T(k)=[0,0,...,0]^T$ 。

令 $T(y)_i=1\{y==i\}$

$P(y|x)=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1\{y=k\}}=\phi_1^{T(y)_1}\phi_2^{T(y)_2}...\phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}=\exp\{{T(y)_1}\log\phi_1+{T(y)_1}\log\phi_2]+...+[1-\sum_{i=1}^{k-1}T(y)_i]\log\phi_k\}=\exp\{[T(y)_1,T(y)_2],...,T(y)_{k-1}]^T.[\log{\frac{\phi_1}{\phi_k}},\log{\frac{\phi_2}{\phi_k}},...,\log{\frac{\phi_{k-1}}{\phi_k}}]+\log\phi_k\}$

则 $\eta=[\log{\frac{\phi_1}{\phi_k}},\log{\frac{\phi_2}{\phi_k}},...,\log{\frac{\phi_{k-1}}{\phi_k}}]^T,a=-\log\phi_k,b(y)=1.$

则 $\phi_i=\frac{\exp{(\eta_i)}}{1+\sum_{i=1}^{k}\exp{(\eta_i)}}=\frac{\exp{(\theta_i^Tx)}}{1+\sum_{i=1}^{k}\exp{(\theta_i^Tx)}}$ .

则 $h_\theta(x)=[\phi_1, \phi_2,...,\phi_k]^T$ .

m0_37891619

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
斯坦福机器学习公开课（4）

1、最速下降法和牛顿法1.1 最速下降法计算步骤如下：（1）给定初始点x(1)∈R(n)x^{(1)}\in R^{(n)}，允许误差ϵ\epsilon>0，置k=1k=1；（2）计算搜索方向d(k)=−▽f(x(k))d^{(k)}=-\bigtriangledown f(x^{(k)})；（3）若||d(k)||≤ϵ||d^{(k)}||\leq \epsilon，则停止计算；否则，从x(k)x
复制链接

扫一扫