机器学习:第二章 单变量线性回归

2.1模型表示

监督学习:对于每一个数据来说,都给出了“正确答案”

回归:根据之前的数据预测一个准确的输出值

分类:预测离散的输出值

训练集:监督学习中已有数据的数据集

m:代表训练集中实例的数量
x :代表特征/输入变量
y :代表目标变量/输出变量
(x,y): 代表训练集中的实例
(x(i),y(i) ): 代表第 i 个观察实例
h :代表学习算法的解决方案或函数也称为假设(hypothesis)

监督学习算法工作方式:

在这里插入图片描述

训练集的数据→学习算法→输出函数h→输入变量到h→输出预测值因为只含有一个特征(输入变量),则此类问题称为单变量线性回归问题

表达式为:(拟合函数)

在这里插入图片描述

2.2代价函数

建模误差:选择的参数决定了得到的直线相对于训练集的准确程度,模型所预测的值与训练集中实际值之间的差距就是建模误差 。

目标便是选择出可以使得建模误差的平方和能够最小的模型参数。

代价函数(建模误差的平方和):最小!

在这里插入图片描述
​ 代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了 。

2.2.1代价函数的直观理解

根据可以看出,当代价函数最小的时候,对应天蓝色的线,拟合的是最好的

在这里插入图片描述

2.3梯度下降

梯度下降是用来求函数最小值的一个算法。我们将使用梯度下降算法来求出代价函数J(θ0,θ1) 的最小值 。

梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,…,θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多(最小)的参数组合。我们持续这么做直到得到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。

批量梯度下降(batch gradient descent)算法的公式为:
在这里插入图片描述

其中 α 是学习率(learning rate) , 它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大 (一次下降多少)

在这里插入图片描述

梯度下降中,我们要更新 θ0 和 θ1 ,当 j=0和 j=1 时,会产生更新, 所以你将更新 Jθ0 和 Jθ1 。

要这样更新:
θ0:= θ0 , 并更新 θ1:= θ1。

在这里插入图片描述
实现方法是: 你应该计算公式右边的部分, 通过那一部分计算出 θ0 和 θ1 的值, 然后同
时更新 θ0 和 θ1。

同时更新是梯度下降中的一种常用方法。同步更新是更自然的实现方法。 当人们谈到梯度下降时, 他们的意思就是同步更新。

2.3.1梯度下降的直观理解

梯度下降算法如下图:

在这里插入图片描述
描述:对 θ 赋值,使得 J(θ)按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。 其中 α 是学习率(learning rate) ,它控制我们以多大幅度更新参数 θj(一次下降多少)

导数项:

在这里插入图片描述
假定,函数是二次函数,假如在图中的点,如图

在这里插入图片描述

α乘以一个正数,θ1减去一个正数,即变小,接近最小值

如果初始点在左边,斜率为负,θ1减去一个负数,即变大,接近最小值

如果α值太小,可能需要很多步才能到最小值点

如果α值太大,可能直接掠过最小值点,导致无法收敛

假设θ1初始值就在局部最低点,那么它的斜率为0,所有后面整个导数项都为0,θ1-0=θ1,即θ1不变

因此,即使α不变时,梯度下降也可以收敛到局部最低点,随着离最低点越来越近,步子(一次下降多少)会越来越小,因为越来越平缓,斜率越来越小,导数越来越小

即在梯度下降法中,当我们接近局部最低点时梯度下降法会自动采取更小的幅度,这是因为我们接近局部最低点时导数趋向于0,因此没必要再另外减小α,这就是梯度下降法,可以用来最小化任何代价函数。

2.4梯度下降的线性回归

梯度下降是很常用的算法,它不仅被用在线性回归上和线性回归模型、平方误差代价函数。

梯度下降算法和线性回归算法 :

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

批量梯度下降,指的是在梯度下降的每一步中,都用到了所有的训练样本, 在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以在每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有 m 个训练样本求和。因此,批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本,而事实上,有时也有其他类型的梯度下降法,不是这种"批量"型的,不考虑整个的训练集,而是每次只关注训练集中的一些小的子集。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值