Gradient Descent

  1. 在function set 中找出 best function,需涉及Loss function。

  2. Loss 损失函数:input为一个function ,output 为function 有多坏。

在实现回归时采取线性模型的过程中

构建:y = wx+b
(w和b有很多种取值构成不同的function,形成一个function set

best function:求出Loss函数取得最小值时的w 和 b(使用梯度下降法,梯度下降法是每次update参数值,直到损失函数最小。

梯度:在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率


该图即为分别对w,b进行求偏微分的操作。
在这里插入图片描述

  1. θ是函数模型中的参数(w,b),此处即为参数θ的不断更新。
  2. η是学习率(具有初始的值,为常量),与移动的步伐大小有关。

Gradient Descent:

普通版和adagrad:(g即为微分值)
在这里插入图片描述

adagrad:
在这里插入图片描述
在普通版梯度下降中,g(t)越大,step越大;
在adagrad中的分母中,g(i)越大,step反而越小。

  1. 参数只有一个时,参见二次函数:y=ax^2+bx+c(a>0)
    y对x求一阶导,算出的微分值若越大,则step越大,x0距离最低点越远。
    2.当参数有多个时,上述第一点的结论则不一定成立。
    3.综上2条,最好的step = 一次微分/二次微分
    在这里插入图片描述

adagrad中的分母即为对该函数的二次微分的估测值
在这里插入图片描述

参考资料:

https://www.bilibili.com/video/av35932863?p=5

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值