CS229 Lecture 3

最新推荐文章于 2019-08-07 23:46:29 发布

Light_blue_love

最新推荐文章于 2019-08-07 23:46:29 发布

阅读量211

点赞数

分类专栏： CS229

本文链接：https://blog.csdn.net/Light_blue_love/article/details/96379792

版权

CS229 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

CS229 Lecture 3

课程要点

Linear Regression
Locally Weight Regression
Probabilistic interpretation
Logistic Regression
Digression: perceptron Learning

欠拟合：拟合出来的函数未能较好的反应出数据的特征，一般欠拟合反应在训练过程中，训练得到的误差很大。
过拟合：拟合出来的函数过度反应了数据的趋势，函数的拟合只是对当前训练数据的拟合而没有考虑到数据的局势共性，泛化能力差。主要表现为对训练数据完美拟合，但是测试的时候，误差较大。

参数学习算法：
前面的最小而成算法属于参数学习算法，通过对训练数据的训练，拟合出最佳的参数 $\theta$ ,然后根据 $\theta$ 来对输入的 $x$ 进行预测。

非参数学习算法：参数的数目随着训练样本的数目增长。就笔者的理解，这种非参数学习参数实际上不算学习到了一个模型，只是有一种计算模型，当又一个新的数据到来的时候它使用所有的数据按照既定的方式重新"计算"一把。局部加权回归就是一种非参数的学习算法。

局部加权回归算法(Loess)
在这里插入图片描述
如上图所示这么一些数据它大体的趋势，现在假设要计算当 $x = 0.8$ 时 $y$ 的值。如果说是最小二乘算法，那么它的计算方式为：
拟合 $\theta$ 使得 $\sum(y^{(i)}-\theta^{T}x^{(i)})^{2}$ 最小，然后带入 $\theta^{T}x$ 计算。

现在看看局部加权线性回归算法的计算方式：
拟合 $\theta$ 使得 $\sum(w^{(i)})(y^{(i)}-\theta^{T}x^{(i)})^{2}$ 最小，然后带入 $\theta^{T}x$ 计算,其中 $w$ 被乘为权重， $w$ 常常采用表达式为： $w^{(i)}=exp^{-\frac{(x^{(i)}-x)^2}{2\tau^{2}}}$ .
对权重取值函数的特点可以看出：
如果 $x^{(i)}-x|$ 很小那么 $w\approx1$
如果 $x^{(i)}-x|$ 很大那么 $w\approx0$

$\tau$ 值控制了权值随距离下降的速率。其中 $\tau$ 的值约大，那么 $w$ 所呈现的钟型函数就约平缓，如果约小，那么对应的钟型函数就约陡峭。

在这里插入图片描述
根据其算法特点可知，每次预测一个点的时候都需要把所有数据重新跑一遍，再去预测。（因为是它是通过局部加权优化，具体预测点越近那么权重越高，其参考价值越高，反之异然。因为每次预测的点都会重新计算新的 $\theta$ ,因此这种算法笔者认为不能算学习到了模型）

线性回归的概率解释

前面的算法为什选择是用最小二乘来衡量误差，而不是三次四次，下面给出一种概率解释。使得最小二乘是赋予意义，而不是玄学。

当然这个解释建驻在一个假设上：
$y^{(i)}=\theta^{T}x^{(i)}+\epsilon^{(i)}$
假设： $\epsilon\sim N(0,\delta^{(2)})$
上面式子中的 $\epsilon$ 表示我们建模的误差，这个误差有肯能来自我们模型建立的不好对默写特征没有捕捉到，还有就是可能来自随机噪声，如买家的心情什么的不确定性。这里假设建模的误差服从高斯分布。高斯分布的密度函数为 $p(\epsilon^{(i)})=\frac{1}{{\sqrt {2\pi}}\delta}exp^{-\frac{(\epsilon^{(i)})^{2}}{2\delta^2}}$

这也就意味着 $p(y^{(i)}|x^{(i)};\theta)=\frac{1}{{\sqrt {2\pi}}\delta}exp^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^{2}}{2\delta^2}}$ ,注意这里的 $x$ 和 $\theta$ 是用；分隔的，这是使用的是频率学派的观点， $\theta$ 并不是变量， $\theta$ 是有确切值的只是我们不知道而已。贝叶斯学派的表示为 $p(y^{(i)}|x^{(i)},\theta)$ 。

者意味着实际上房价在给定 $x$ 和参数化的 $\theta$ (y given x parameterized by $\theta$ )前提下也是服从高斯分布的。

$p(y^{(i)}|x^{(i)};\theta)\sim N(\theta^Tx^{(i)},\delta^2)$

进一步假设各个 $\epsilon^{(i)}$ 是独立同分布的(IID)；
既然我们观察到了这批数据，那么我们有理由相信参数 $\theta$ 使得这批数据以最大的概率出现了，即最大似然，下面定义关于 $\theta$ 的最大似然函数：
$L(\theta)=p(y|x;\theta)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)\\ =\prod_{i=1}^{m}\frac{1}{{\sqrt {2\pi}}\delta}exp^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^{2}}{2\delta^2}}$
这里的似然函数是关于 $\theta$ 的函数。

我们使得这批数据是最大概率出现的，那么计算该似然函数的最大值：最大化该似然函数
为了数学上的方便处理令 $L(\theta)=logL(\theta)$
$L(\theta)=log\frac{m}{\sqrt {2\pi}\delta}+\sum_{i=1}^{m}-\frac{(y^{(i)}-\theta^Tx^{(i)})^{2}}{2\delta^2}$

根据上面的公式推导，最大化 $L(\theta)$ 实际上最小化 $\sum\frac{(y^{(i)}-\theta^Tx^{(i)})^{2}}{2}$ ,这个公式有没有很眼熟，它不就是代价函数 $J(\theta)$ 吗。因为前面假设的是 $\epsilon$ 服用方差为 $\delta$ 的高斯分布，实际上 $\delta$ 对似然函数没有什么影响。

分类问题：

在大多数情况下使用回归算法来做分类问题效果是不好的。
在这里插入图片描述
如上图如果新增右边蓝色的点就很容易使得训练的模型失真。

二元分类 $y\in\{0,1\}$ ,我们的 $h(x)\in[0,1]$ ,典型的分类函数选择的激活函数为sigmoid,其形式为 $h(x)=g(\theta^Tx)=\frac{1}{1+e^{-{\theta^Tx}}}$ ，其中sigmoid函数的样子如下：
sigmoid
针对分类问题的概率解释为：
$p(y=1|x;\theta)=h_{\theta}(x)$
$p(y=0|x;\theta)=1-h_{\theta}(x)$
$p(y|x;\theta)=(h_{\theta}(x))^{y^{(i)}}(1-h_{\theta}(x))^{1-y^{(i)}}$

似然函数为：
$L(\theta)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^{m}(h_{\theta}(x))^{y^{(i)}}(1-h_{\theta}(x))^{1-y^{(i)}}$
同样为了数学处理上的方便令 $L(\theta)=logL(\theta)$
$L(\theta)=\sum_{i=1}^{m}log[(h_{\theta}(x))^{y^{(i)}}(1-h_{\theta}(x))^{1-y^{(i)}}]$

为了使得似然函数最大可以使用梯度上升算法： $\theta=\theta+\alpha\bigtriangledown L(\theta)$ 其中：
$\frac{\partial}{\partial \theta_{i}}\bigtriangledown L(\theta)=\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)}$

$\theta_j=\theta_{j}+\alpha \sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)}$

感知器：

感知器算法其激活函数只有两个值 $g(z)=\begin{cases}1,\quad &z \geq 0 \\0, &x<0\end{cases}$ ,其中 $h(x)=g(\theta^Tx)$

同样 $\theta_j=\theta_j+\alpha(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)}$

未完！公式尚未推导

Light_blue_love

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS229 Lecture 3

CS229 Lecture 3课程要点Linear RegressionLocally Weight RegressionProbabilistic interpretationLogistic RegressionDigression: perceptron Learning欠拟合：拟合出来的函数未能较好的反应出数据的特征，一般欠拟合反应在训练过程中，训练得到的误差很大。过...
复制链接

扫一扫

专栏目录