本系列课程笔记为李宏毅2017,秋,台湾大学课程。
视频网址链接:https://www.bilibili.com/video/av15889450?p=6
更新日期:20200204
Gradient Descent实现
Learning Rate
固定Learning Rate
Adaptive Learning rates
Adagrad
方程式的简化,使得
s
q
r
t
(
t
+
1
)
sqrt(t+1)
sqrt(t+1)相消了
Stochastic Gradient Descent/随机
Feature Scaling
使得不同的自变量对因变量的影响趋于一致。
Gradient Descent Theory
基于泰勒展开式
其(Loss)减小方向是确定的