ML4⃣️:梯度下降

1. 梯度下降Gradient Descent(找到minimum J(w)的好方法)

  1. 用来找到w,b,在J(w)最小的时候。
  2. 代价函数J(w,b),我们想要最小化代价函数。
  3. outline:
    1. start with some w,b。通常set w = 0,b = 0
    2. 不断变化w,b的值去降低J(w,b)。
    3. until 我们找到or 靠近minimum(注意:J(w,b)函数不一定是u型/碗状的,minimum可能不止一个。)
      请添加图片描述

2. 梯度下降的实现

2.1 梯度下降的算法

  1. 公式:

请添加图片描述

  • α: learning rate, 范围[0,1]。如果α很大,则梯度下降很快。
  1. 同时更新w,b的值。
    请添加图片描述

3. 理解梯度下降(derivative的重要性)

  1. 假设只有一个参数w,例1显示斜率 > 0,derivative > 0,w会左移,更接近minimize w。
  2. 假设只有一个参数w,例2显示斜率 < 0,derivative < 0,w会右移,更接近minimize w。
    请添加图片描述

4. 学习率learning rate

  1. α太小,gradient descent会很慢。
  2. α太大,gradient descent有可能oveershoot,错过minimum,导致J(w)反而变大。—> diverge离散

请添加图片描述

  1. 如果w已经在J(w)的local minimum了,derivative = 0,则w会不变。
    【当w不变时,则到达了J(w)的local minimum】
  2. 即使α不变,当接近local minimum的时候,会自动采取更小的步骤接近他。因为derivative(斜率)在变小,所以steps会变小。
    请添加图片描述

5. 线性回归的梯度下降

请添加图片描述

请添加图片描述

  1. 对于linear regression来说(它的特性),找到的minimum一定是globle minimum。

6. 实例

  1. 从w=-0.1,b=900开始,f(x)=-0.1x+900
    实现梯度下降的过程:

请添加图片描述

  1. “Batch” gradient descent:批量梯度下降
  • “Batch”gradient descent每一步都会使用所有的training examples。请添加图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值