小白学深度学习
模型训练
- 训练数据
y ^ ( i ) = x 1 ( i ) w 1 + x 2 ( i ) w 2 + b \hat y^{(i)} = x_1^{(i)}w_1 + x_2^{(i)}w_2 + b y^(i)=x1(i)w1+x2(i)w2+b - 损失函数
l ( i ) ( w 1 , w 2 , b ) = 1 2 ( y ^ ( i ) − y ( i ) ) 2 l^{(i)}(w_1, w_2, b) = \frac{1}{2}(\hat y^{(i)}-y^{(i)})^2 l(i)(w1,w2,b)=21(y^(i)−y(i))2
l ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n l ( i ) ( w 1 , w 2 , b ) l(w_1, w_2, b) = \frac{1}{n}\sum_{i=1}^nl^{(i)}(w_1, w_2, b) l(w1,w2,b)=n1i=1∑nl(i)(w1,w2,b) - 优化算法
小批量随机梯度下降(mini-batch stochastic gradient descent):先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量,然后求小批量中数据样本的平均损失有关模型参数的梯度,最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。