机器学习---Gradient descent Algorithm

前言

从寒假入门机器学习开始,陆陆续续的看了很多期吴恩达教授的视频,回到学校后决定继续这门课程的学习,这也是我的兴趣所在,也算当作对自己未来的风向标和考研之余对专业学习的深入研究。

接下来我将对教授在所讲授课程中梯度下降及之前的内容进行总结

概念

1.机器学习的定义
一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序处在处理T时的性能有所提升。—Tom Mitchell

分析:以前听说过自动驾驶汽车的训练方法,是汽车在计算机的指挥下经过不同的尝试,每一次尝试会得到一个评分指标,即上文中所提到P,当下一次选择时会选择P最高的方案,也就是会做出计算机所认为最佳的决定,这就与机器学习的概念相类似。

2.机器学习算法的分类
监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。细分为回归问题(Regression)分类问题(Classification)
例如:通过一些training set使得机器得出正确的结果,如通过几个月的房价样本来预测某月的房价,或是肿瘤大小样本来预测肿瘤是恶性还是良性。
在这里插入图片描述
在这里插入图片描述
无监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类算法,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。
例如:Google让计算机将收集到的新闻分类。

监督学习中训练数据既有特征(feature)又有标签(label),通过训练得到最优模型;无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律,或是让计算机得出一些数据集的一些结构。

梯度下降算法

这里我们使用梯度下降算法来得出能最好拟合数据的线性回归方程
在这里插入图片描述
第一个是线性回归方程的一般表达式,x(i)与y(i)代表每一组训练集,对于每一组参数θ1和θ0都会有不同的回归方程,J是代价函数这里的J函数也成为误差平方代价函数,可以认为是对于Training set拟合程度的评估,目的是让J最小化。
该代价函数的三维图像和等高图像:
在这里插入图片描述

梯度下降算法
下面是本文的重头戏。
梯度下降:梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数𝐽(𝜃0, 𝜃1) 的最小值。
但是值得注意的是:因为每个代价函数J不一定是类似于上图的形式,所以根据初始点位𝜃0,𝜃1的不同,求得的最小值也是不同的,即局部最小值,所以应该尽量便利𝜃0, 𝜃1的可能组合。如下图:
在这里插入图片描述
接下来是梯度下降的公式和过程:
在这里插入图片描述

值得注意的是所有参数必须同时更新,原因教授也没讲过多,在我看来如果逐个更新的话会将梯度下降的原始坐标移动引起结果的误差。
后面的减去的项是代价公式中对该参数的偏导数

梯度下降公式中的a指的是学习效率,可以理解为向最优解靠近的程度,a的大小也会决定机器学习的效率和正确定,如a过小所找到最优解的时间过长,a过大的话则可能导致结果越来越偏离最优解也就是教授所说的发散。
在这里插入图片描述

在我认为梯度下降的精髓在于不断减去一个偏导数和学习效率的乘积,而如果学习效率a合理这个乘积会不断向最优解靠拢,斜率的正负使得任何非最优解都会向最优解方向靠拢,而越靠近最优解斜率越小则使得越接近最优解时靠近的步幅也越小(学习效率a就是追求心爱女孩的速度,不能太快也不能太慢,而越来越靠近心爱女孩时步幅也应该放缓因为太大的步幅会使得你们擦肩而过,也是斜率越来越来小的意义(●’◡’●)

下面是梯度下降和线性回归的结合:
在这里插入图片描述
有时间会补上python代码!
晚安~
我自己还有你!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值