小闹钟的机器学习笔记(2)

本次学习内容为cs229第二节

监督学习与梯度下降

给定一个经过训练的数据组,如何找出其中的变化规律?

  • x用来表示输入变量,也称为特征。
  • y用来表示输出变量,或者目标变量。
  • (x,y)为一组数据。

给定一个训练集合,和一个学习算法,会生成一个结果h,这个h我们成为假设。这个假设的任务就是将输入x映射到输出y。为了设计学习算法,我们第一步要做的就是为h作一个设定,即通过x来表示h。

在表示h时,需要用到一些参数。
求出准确的h的过程,即使得h与y的差距最小的过程,也就是一个使得预测值与实际值的平方差最小的过程。

1. 搜索算法。

将初始向量设定为0向量,通过不断调整向量的值来使得两者的差距逐渐减小。
梯度下降算法就是寻找下降最快的方向,并按照该方向进行搜索,从而使得寻找目标向量值的速度加快,用时减少。
从不同的起点出发可能会找到完全不同的局部最优值,即梯度下降的结果依赖于初始值。

梯度下降的速度

这个参数通常都是通过手动设置的,如果设置的过小则会导致用时过长,如果设置的过大则会导致越过最小值。

将该算法扩展到m组数据上时,变为:

这里写图片描述

越接近最小值,梯度会越来越小,就可以认为它收敛了。
这个算法被称为批(batch)梯度下降算法。
转换为向量形式后

这里写图片描述

2. 随机梯度下降。

又称为增量梯度下降。当你有一个比较大的数据集时,使用批梯度下降算法过于费时费力,使用该算法会减少大量时间。
该算法不需要你在调整参数时对所有的数据组进行遍历,而是每经过一组数据就对参数进行一次修改。

for j=0:m,

这里写图片描述

可以很明显的看出与上一个公式的区别,即j的循环位置的变换。

3. 矩阵设计。

首先设计出一个矩阵X,用来表述输入矩阵。

这里写图片描述

这里写图片描述

用这个向量和自己做内积就会得到

这里写图片描述

这与我们之前要求的差值一致,但是用矩阵来求解计算时会相对容易。
化简的部分步骤较多,在此不列出。只给出最后结果。

这里写图片描述

即:

这里写图片描述

最终求得的结果为:

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值