![4f61235a0abce9e91108ed9246e217fe.png](https://i-blog.csdnimg.cn/blog_migrate/35a0033c95552c3ce25ff2d4d2f222d9.jpeg)
本文主要介绍一下深度学习模型构建中的模型训练。
浅谈深度学习
深度学习可以通俗理解为从人脑结构中获得启发,设计出一种几乎可以拟合任何关系的强大公式。适用于文字、图像和语音等领域。深度学习是近两年研究的热点,与深度学习相关的论文数量逐年攀升,与深度学习为基础的AI技术在各行业广泛应用,产生了巨大的经济价值。
求解损失函数达到极小值的参数值
以预测房价为例,根据样本数据,需要找到一组
先讨论一个我们很容易想到的方案:损失函数在极值点处的导数为0.但我们发现求导的函数正向计算容易,反向求解比较难。所以我们一般选择另一种方案——梯度下降法。
梯度下降法的步骤
为表示方便,以两个参数的优化过程为例:
步骤如下:
- 随机的选一组初始值,例如:
- 选取下一个点
,使得:
- 重复上面的步骤2,直到损失函数几乎不再下降
其中,选择下一个点
(1)保证L是下降的
(2)下降的趋势要尽量快
计算梯度的代码
gradient_w0=(z1-y1)*x1[0]
print(‘gradient_w0{}'.format(gradient_w0))
该代码可用于计算
gradient_w=(z1-y1)*x1
print(‘gradient_w{},gradient.shape{}'.format(gradient_w,gradient_w.shape))
使用Numpy矩阵操作,计算梯度的代码中直接用(z1-y1)*x1,得到一个13维的向量,每个分量分别代表该维度的梯度。这一个代码成功计算出了一个样本对所有13个w的梯度贡献。
总的梯度是所有样本对梯度贡献的平均值。
利用类似的过程可以计算出b的梯度。由于b是一个数值,所以梯度也是一个数值。
全流程的步骤
- 前向计算(计算预测输出)
- 执行1,才能计算损失
- 执行1和2,才能计算梯度
- 执行3,更新参数值
对梯度下降法的改进
缺点:面对海量样本的数据集,如果每次计算都使用全部的样本来计算损失函数和梯度,性能很差,计算较慢。
改进:1.每次从总数居集中随机抽取出一部分数据来代表整体,基于这部分数据计算梯度和损失函数来更新参数,称作随机梯度下降法(SGD)
min-batch:每次迭代时抽取出来的一批数据被称为一个min-batch
batch_size:一个min-batch所包含的样本数目
epoch:按min-batch逐次抽取出样本,当将整个样本集遍历后,即完成了一轮的训练,称为一个epoch
例:train_data中一共包含404条数据,如果batch_size=10,程序将train_data分成404/10+1=41个min-batch。前40个min-batch每个均含有10个样本,最后一个min-batch只含有4个样本。
2.随机抽取min-batch
随机抽样的方式为:乱序样本集合,再按序抽取min-batch
随机的好处在于避免样本顺序对训练过程的影响
可使用np.random.shuffle打乱一维数组和二维数组的元素顺序
#新建一个array
a=np.arrey([1,2,3,4,5,6,7,8,9,10,11,12])
print(‘before shuffle',a)
np.random.shuffle(a)
print(‘after shuffle',a)
一维数组
#新建一个array
a=np.arrey([1,2,3,4,5,6,7,8,9,10,11,12])
a=a.reshape([6,2])
print(‘before shufflen',a)
np.random.shuffle(a)
print(‘after shufflen',a)
二维数组
3.加入多轮和多批次训练的双层循环(训练过程部分的修改)
(1)第一层循环,代表样本集合要被训练遍历几次,称为“epoch”
(2)第二次循环,代表每次遍历时,样本集合被拆分成的多个批次,需要全部执行训练,称为“iter(iterration)”
(3)两层循环内是经典的四步
前向计算