利用高级API学深度学习

最新推荐文章于 2023-12-20 20:14:04 发布

啊这？啊这？

最新推荐文章于 2023-12-20 20:14:04 发布

阅读量390

点赞数 1

文章标签： python 深度学习

本文链接：https://blog.csdn.net/m0_55801659/article/details/126286638

版权

paddle：飞桨的主库，paddle 根目录下保留了常用API的别名，当前包括：paddle.tensor、paddle.framework、paddle.device目录下的所有API；

Linear：神经网络的全连接层函数，包含所有输入权重相加的基本神经元结构。

paddle.nn：组网相关的API，包括 Linear、卷积 Conv2D、循环神经网络LSTM、损失函数CrossEntropyLoss、激活函数ReLU等；

paddle.nn.functional：与paddle.nn一样，包含组网相关的API，如：Linear、激活函数ReLU等，二者包含的同名模块功能相同，运行性能也基本一致。差别在于paddle.nn目录下的模块均是类，每个类自带模块参数；paddle.nn.functional目录下的模块均是函数，需要手动传入函数计算所需要的参数。在实际使用时，卷积、全连接层等本身具有可学习的参数，建议使用paddle.nn；而激活函数、池化等操作没有可学习参数，可以考虑使用paddle.nn.functional。

深度学习编写方式：更方便调试的动态图模式和性能更好并便于部署的静态图模式。动态图和静态图之间的转换利用(to_static)即可完成。自动将动态图的程序转换为静态图的program，并使用该program训练并可保存静态模型以实现推理部署。

forward函数是框架指定实现前向计算逻辑的函数，程序在调用模型实例时会自动执行，forward函数中使用的网络层需要在init函数中声明。定义init函数：在类的初始化函数中声明每一层网络的实现函数。在房价预测任务中，只需要定义一层全连接层，定义forward函数：构建神经网络结构，实现前向计算过程，并返回预测结果。

模型实例有两种状态：训练状态.train()和预测状态.eval()。训练时要执行正向计算和反向传播梯度两个过程，而预测时只需要执行正向计算，为模型指定运行状态，有两点原因：

部分高级的算子在两个状态执行的逻辑不同，如：Dropout和BatchNorm
从性能和存储空间的考虑，预测状态时更节省内存(无需记录反向梯度)，性能更好。

训练过程( 训练过程采用二层循环嵌套方式 )：

1.内层循环：负责整个数据集的一次遍历，采用分批次方式（batch）。假设数据集样本数量为1000，一个批次有10个样本，则遍历一次数据集的批次数量是1000/10=100，即内层循环需要执行100次。

for iter_id, mini_batch in enumerate(mini_batches):

2.外层循环： 定义遍历数据集的次数，通过参数EPOCH_NUM设置。

for epoch_id in range(EPOCH_NUM):

注意：

batch的取值会影响模型训练效果，batch过大，会增大内存消耗和计算时间，且训练效果并不会明显提升（每次参数只向梯度反方向移动一小步，因此方向没必要特别精确）；batch过小，每个batch的样本数据没有统计意义，计算的梯度方向可能偏差较大。笔者个人觉得，利用GPU训练的适合，尽可能让你的显存占满( 逐步增大batch，终端输入watch -n 1 nvidia-smi或者在终端输入nvidia-smi即可查看)，

模型保存的重要性：

为什么要执行保存模型操作，而不是直接使用训练好的模型进行预测？理论而言，直接使用模型实例即可完成预测，但是在实际应用中，训练模型和使用模型往往是不同的场景。模型训练通常使用大量的线下服务器（不对外向企业的客户/用户提供在线服务）；模型预测则通常使用线上提供预测服务的服务器实现或者将已经完成的预测模型嵌入手机或其他终端设备中使用。

模型预测的流程：

配置模型预测的机器资源。本案例默认使用本机，因此无需写代码指定。
将训练好的模型参数加载到模型实例中。由两个语句完成，第一句是从文件中读取模型参数；第二句是将参数内容加载到模型。加载完毕后，需要将模型的状态调整为eval()（校验）。上文中提到，训练状态的模型需要同时支持前向计算和反向传导梯度，模型的实现较为臃肿，而校验和预测状态的模型只需要支持前向计算，模型的实现更加简单，性能更好。
将待预测的样本特征输入到模型中，打印输出的预测结果。