监督学习应用：梯度下降

最新推荐文章于 2024-08-06 20:17:03 发布

不爱学习未完待续

最新推荐文章于 2024-08-06 20:17:03 发布

阅读量132

点赞数

分类专栏：机器学习文章标签：机器学习梯度下降

本文链接：https://blog.csdn.net/weixin_40196271/article/details/84403880

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

监督学习

装甲车：训练它，训练过程由真人实施，但是装甲车在学习，记录训练员的动作，图像。人类司机交给它用什么方向来行驶。是监督学习的过程。2分钟训练后，装甲车学习了人类司机的动作。12次后，可以自己进行驾驶。这是一个回归问题，连续值。

房屋例子：面积和价格。可以将训练数据画出来，表示它们的关系。m表示数目，有47个训练样本。之后，用x表示输入变量，通常也可以成为特征，y表示输出变量，有时也成为目标变量。（x,y）表示一个样本。第i个样本用（xi,yi）表示。47个训练样本提供给算法，我们的算法会生成一个函数，用h表示函数，表示假设。假设的任务是根据面积估计价格，h将输入x映射到y。

https://blog.csdn.net/u013709270/article/details/78667531/

x:特征值；y:目标量； $h_{\theta }(x)$ 假设函数。我们要找的是假设函数。 $h_{\theta }(x)=\theta ^{T}x$ ，x是样本中的值，要求假设函数，也即是要求 $\theta$ 。

损失函数： $J_{\theta }=\frac{1}{2}(h_{\theta }(x)-y)^{2}$ ，我们需要找到比较好的假设函数，就是使得损失函数尽量较小。

对于梯度下降函数的思想是：假设损失函数的比较小的值在波谷，我们给定一个初始值，一般初始值不在波谷，则它可能在山上，或者是半山腰吧，那我们要找到波谷的较小值，则需要下山，下山的方向有很多个，为了使时间缩短，可以朝着最快的下山方向前进。而每个人下山的步长不一样，因此还要引入步长变量 $\alpha$ 。因此

$\theta _{j} := \theta _{j} - \alpha \frac{\partial }{\partial \theta _{j} }J(\theta )$ ，给了初始的 $\theta$ ，则初始的 $J(\theta )$ 也知道了，之后一步步进行迭代。迭代到什么时候终止呢？主要根据它迭代的终止条件来判断，可能是迭代次数，也可能是迭代的这一次与上一次的差值。

根据上面三个式子，继续对 $\theta _{j}$ 进行推导。得到 $\theta _{j} :=\theta _{j} -\alpha (h_{\theta }^{i}-y^{i})x_{j}^{i}$ ，对于整个数量集上，则用的是批次梯度下降法BGD

$\theta _{j} :=\theta _{j} -\alpha\sum_{i=1}^{m} (h_{\theta }^{i}-y^{i})x_{j}^{i}$ 。这种方法可以用到所有的数据，但是如果数据集多的话计算代价会很高。这时候可以考虑随机挑选一部分数据集，这种方法称为随机梯度下降法SGD。

。。。。。。未完待续

不爱学习未完待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
监督学习应用：梯度下降

监督学习装甲车：训练它，训练过程由真人实施，但是装甲车在学习，记录训练员的动作，图像。人类司机交给它用什么方向来行驶。是监督学习的过程。2分钟训练后，装甲车学习了人类司机的动作。12次后，可以自己进行驾驶。这是一个回归问题，连续值。房屋例子：面积和价格。可以将训练数据画出来，表示它们的关系。m表示数目，有47个训练样本。之后，用x表示输入变量，通常也可以成为特征，y表示输出变量，有时也成为...
复制链接

扫一扫

专栏目录