第一节 深度学习的基本概念简介 上
1. 机器学习用语
denominator分母
numerator分子
activation function 激活函数,eg:sigmoid、relu(reactified linear unit max(0, b+wx))
induction 归纳
sparse稀疏
deduction 演绎
label 真实值
parameter 参数,是函数隐含的,被训练得到的;
hyper parameter 超参数,是人为设定的那些参数;
global minima 全局最小;
local minima 局部最小;
standard deviation标准差=方差的平方
corpus语料库
model bias 由于模型本身所带来的限制,例如linear model只能是一条直线。
piecewise linear curve 分段线性曲线(只有折线直线的曲线)
(第一堂课的部分总结)后续内容穿插在每一章中不单独列出
2. 机器学习的第一步:函数 function
Regression:回归;
Scalar:标量;
Classification:分类;
两大类任务:regression预测气温、classification阿尔法狗预测围棋的下一步;
额外的一个:structured learning让机器产生有结构的东西:例如一个文章一个图画;
机器学习的model:带有未知parameters的function(函数);
3. 机器学习的第二步:定义loss function
输入是model里的parameter;将训练资料的数据带入到得到的函数中,来度量模型的预测值f(x)与真实值Y的差异程度的运算函数
MAE:mean(平均) absolute(绝对) error(误差)
MSE mean square error 平均平方误差
如果y和y_hat都是概率的话,可采用cross-entropy
error surface 坐标轴是parameter,对应的点的值是loss值的一个图像
4. 机器学习的第三步:优化 optimization
w
∗
^*
∗, b
∗
^*
∗ =
a
r
g
m
i
n
L
w
,
b
\underset {w, b}{argmin L}
w,bargminL
w
∗
^*
∗是指使loss function最小的一个parameter
1. gradient descent(梯度下降法)
- hyper parameters:
learning rate学习率 η \eta η:决定参数的更新速度。在gradient descent中与梯度相乘。 - 随机选一个初始点。
- 计算初始点的关于parameter的梯度
- w1 = w0 -
∂
L
∂
w
\frac{\partial L} {\partial w}
∂w∂L| w=w0, b=b0 *
η
\eta
η (迭代一次后的w就是w1)
b1 = b0 - ∂ L ∂ w \frac{\partial L} {\partial w} ∂w∂L| w=w0, b=b0 * η \eta η(迭代一次后的b就是b1)- 右上角数字标表示迭代次数。
- 用减号的原因:为了让loss function取最小值,当梯度计算为负值说明随着该parameter的增大可以使loss function减小,所以迭代减去这个得到的负值就可以让该parameter所迭代的下一个值变大,下一轮的loss function更小。当梯度gradient是正值时同理。
- 按照上面的式子反复迭代(iteratively)更新。更新的次数也是一个hyper parameter。
- gradient descent不是一个好方法的原因之一:存在local minima。但这并不是主要问题
5. 总结
上述三个步骤合起来称之为训练。