[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡（Day 2）

最新推荐文章于 2020-10-19 21:11:21 发布

BruceWang94

最新推荐文章于 2020-10-19 21:11:21 发布

阅读量259

点赞数

分类专栏：飞桨PaddlePaddle学习笔记文章标签： paddlepaddle

本文链接：https://blog.csdn.net/Bruce_Wang02/article/details/107978473

版权

飞桨PaddlePaddle学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡（Day 2）

logo

(Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png)

接着昨天的内容。

今天介绍了梯度下降的代码实现，以及随机梯度下降（SGD）的原理与实现。

有N个样本，m个特征，以均方误差损失函数为例：
$\frac{1}{2N}\sum_{i=1}^{N}{(y_i - z_i)²}$ 其中 $z_i$ 是网络对第 $i$ 个样本的预测 $z_i = \sum_{j}{x_i^j \cdot w_j + b}$

梯度定义如下：
$(\frac{\partial{L}}{\partial{w_0}}, \frac{\partial{L}}{\partial{w_1}}, \dots, \frac{\partial{L}}{\partial{w_m}},\frac{\partial{L}}{\partial{b}})$

数学计算如下：
$\begin{aligned} \frac{\partial{L}}{\partial{w_j}} &= \frac{1}{N} \sum_{i=1}^{N}{(z_i - y_i) \frac{\partial{z_i}}{\partial{w_j}}}\\ &= \frac{1}{N} \sum_{i=1}^{N}{(z_i-y_i)x_i^j}\\ \frac{\partial{L}}{\partial{b}} &= \frac{1}{N} \sum_{i=1}^{N}{(z_i - y_i) \frac{\partial{z_i}}{\partial{b}}}\\ &= \frac{1}{N} \sum_{i=1}^{N}{(z_i - y_i)} \end{aligned}$

对于参数的更新，则使用
$w_j \leftarrow w_j - \eta \frac{\partial{L}}{\partial{w_j}}$

梯度下降法是将所有样本梯度的贡献取平均，根据梯度更新参数。但是在面对海量样本时，每次都计算全部样本的梯度开销很大。而随机梯度下降法（SGD）则提供另一个思路，每次选取一部分数据代替争取，基于这部分数据来更新参数。

在SGD中，有如下概念

min_batch: 每次迭代时抽取出来的一批数据
batch_size: 一个min_batch所包含的样本数目
epoch: 按min_batch逐次抽取样本，当将整个样本集遍历后，即完成了一轮的训练，称为一个epoch

第二部分介绍了飞桨平台

深度学习框架的优势：

节省编写大连底层代码的精力
省去了部署和适配环境的烦恼

飞桨支持动态图，也支持静态图

静态图模式：先编译后执行的方式。用户需预先定义完整的网络结构，在对网络结构进行编译优化后，才能执行或者计算结果。
动态图模式：解析式的执行方式。用户无需预先定义完整的网络结构，每写一行网络代码，即可同时获得计算结果。
```
# 定义飞桨动态图的工作环境
with fluid.dygraph.guard():
	pass
```