吴恩达机器学习COURSE1 WEEK1

COURSE 1 WEEK 1

机器学习的应用

当我们有一个目标,不知道如何显示地写出来一个程序时,例如自动驾驶等,这时候就需要制定某些规则,让计算机自己去学习,即机器学习

机器学习就是沿用人脑学习的过程,逐步对目标进行认知、学习

机器学习的定义

Arthur Samuel将机器学习定义为使计算机无需明确编程即可完成学习的研究领域

一般而言,给机器越多的训练,其最后表现得效果就会越好

机器学习主要分为:

  • 监督学习,实际应用中使用最多的算法模型
  • 无监督学习

监督学习

监督学习是指学习从 x x x y y y,即从输入到输出映射的算法,关键是人为提供学习算法实例以供学习,即我们的数据集,根据我们提供的数据,使得机器尽可能准确(与数据相符)的获得一个输出,从而用来预测

一些领域的应用:
在这里插入图片描述

在这些程序中,我们首先使用输入事例 x x x 和正确答案 y y y 来训练模型,在模型通过这些数据中学习之后,他们可以采用全新的输入 x x x ,并尝试产生对应的适当的输出 y y y

Learns from being given “right answers”

在监督学习中,又可以分为:

  • 回归,从无限多的可能数字中预测数字,例如房价的预测

  • 分类,输出的值是一组有限的集合,且输出不必是数字,例如乳腺癌肿瘤分类。

    分类算法的学习任务就相当于是找到不同类别的分界线,用于做分类
    在这里插入图片描述

在分类中,输出是一组离散的、有限可能的输出

在回归中,输出是无限多可能的数字

无监督学习

无监督学习中,给定的数据与任何输出标签 y y y 无关,即例如乳腺癌预测,只给出了患者年龄和肿瘤块大小,但我们不知道是否患有肿瘤,即没有任何标签
在这里插入图片描述

因此,如上图中,无监督学习的任务就是找到数据的集群,即哪些数据聚集在一起,例如经常使用的聚类算法

就像推荐系统,在阅读文章时,通常会有推荐阅读,这就是无监督算法,他通过我们阅读的文章中的关键词,进行搜索,把关键词相同的文章进行聚类,从而形成推荐阅读

总的来说,聚类算法就是获取没有标签的数据并尝试自动将他们分组到集群中

无监督学习类型:

  • 聚类算法
  • 异常检测
  • 降维,将大数据压缩成一个小得多的数据集,同时丢失尽可能少的信息

线性回归模型

模型介绍

线性回归是监督学习中一个重要的模型,其具体做法是利用一条直线来拟合我们当前的数据,例如房价预测

在这里插入图片描述

常用术语

  • 输入 x x xfeature,即特征
  • 输出 y y ytarget,即目标
  • 训练样本的总数 m m m
  • ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)) 代表这是第 i 个训练示例

整体过程:
在这里插入图片描述

  • 首先定义训练集,即training set,其中包括特征与目标
  • 然后设置学习算法,模型通过这个算法去进行学习
  • 最终得到一个函数f,称为我们的模型
  • 通过输入一些值,并且定义他的大小,得到预测值

关键:模型函数f的定义

由于我们是线性模型,因此,在这里定义模型为:
f w , b ( x ) = w x + b f_{w, b}(x) = wx + b fw,b(x)=wx+b
这是一个关于 x x x 的函数,输出为 y ^ \hat y y^,并且通过学习合适的参数 w 、 b w、b wb 来使预测值足够准确

损失函数

损失函数能够告诉我们模型的运行情况,以便我们可以尝试让他做得更好

在我们的模型中, w 、 b w、b wb 称为参数,即 parameters

当参数不同时,我们的模型就会不同,最终的预测结果也就不同

在这里插入图片描述

因此,对于我们的线性回归模型,就是要找到最合适的一组参数,使得我们的预测值尽量准确,尽量的的接近训练示例

因此,为了表示准确程度,我们需要设置损失函数,来表示我们模型的直线与训练数据的匹配程度

误差项err
( y ^ ( i ) − y ( i ) ) (\hat y^{(i)} - y^{(i)}) (y^(i)y(i))
损失函数cost function
J ( w , b ) = 1 2 m ∑ i = 1 m ( y ^ ( i ) − y ( i ) ) 2 = 1 2 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) 2 J(w,b) = \frac{1}{2m}\sum_{i=1}^{m}(\hat y^{(i)} - y^{(i)})^2 = \frac{1}{2m}\sum_{i=1}^{m}(f_{w, b}(x^{(i)}) - y^{(i)})^2 J(w,b)=2m1i=1m(y^(i)y(i))2=2m1i=1m(fw,b(x(i))y(i))2
即,平方误差损失函数

最前面除以2是为了后续的计算中表达更简洁

因此,最终我们的目标是通过训练来更新参数的值,使得损失函数最小,即
min ⁡ w , b = J ( w , b ) \mathop{\min}\limits_{w,b} =J(w,b) w,bmin=J(w,b)
为了简化操作方便可视化,这里去掉参数 b b b,把误差函数作为 J ( w ) J(w) J(w),通过选取不同的参数 w w w,误差函数曲线如下所示:

在这里插入图片描述

梯度下降

梯度下降算法是通过对损失函数求解梯度计算,找到损失函数最小时对应的参数的值

一般而言,我们并不需要关注参数的初始值,因此一般在算法初始阶段会将参数设置为 0

梯度下降算法的整体流程就相当于下山的过程,当我们想要迅速下山至山谷时,每一次都要朝着一个方向迈出一小步,为了尽快下山,每一步的方向应该是当前山坡中最陡的方向
在这里插入图片描述

其中,下山的方向就是我们的梯度,迈出的步伐大小就是学习率

同时,由于初始点的选取不同,我们可能会下山到不同的山谷,即对应了各种局部最优解

梯度下降算法公式

w = w − α ∂ ∂ w J ( w , b ) b = b − α ∂ ∂ b J ( w , b ) w = w - \alpha \frac{\partial}{\partial w}J(w,b) \\ b = b - \alpha \frac{\partial}{\partial b}J(w,b) w=wαwJ(w,b)b=bαbJ(w,b)

其中, α \alpha α 是学习率

注意:

在执行梯度下降算法计算梯度时,上述两个梯度的计算是同时的,即损失函数 J ( w , b ) J(w,b) J(w,b)中的值是相同的,且两个参数的更新是同时的,这样做的目的是能够确保是在源点寻找到最陡的地方

在这里插入图片描述

学习率的选取

当学习率选择较小时,意味着我们下山时每一步的步长比较小,需要较多次数才能到达山谷,虽然最终会得到正确的答案,但需要耗费较长的时间
在这里插入图片描述

当学习率比较大时,意味着我们下山时每一步的步长比较大,可能会加速我们下山的过程,但由于步长较大,因此会错过山谷,即结果不会收敛到最小值点
在这里插入图片描述

但是,使用梯度下降算法时,经常遇到的一个问题是陷入局部最优解,此时该点的梯度值为 0,参数不能更新

因此,通常,在使用梯度下降算法时,我们通常会对学习率做自适应的变化,即随着迭代次数的增加,学习率逐步减小:

  • 在算法的初步阶段,学习率较大,提高全局搜索能力,使得参数快速收敛到最优值附近
  • 在算法的结尾阶段,学习率较小,提高局部搜索能力,使得参数精确收敛到精确值的位置
  • 15
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值