【强化学习实战-06（3）】Loss function的理解和mini batch训练的理解

刘兴禄

已于 2022-03-03 15:26:35 修改

阅读量1.1k

点赞数

分类专栏： RL+OR 机器学习+强化学习-笔记文章标签：强化学习深度学习机器学习 batch操作 loss function

于 2022-03-03 12:57:31 首次发布

本文链接：https://blog.csdn.net/hsinglukliu/article/details/123251225

版权

【强化学习实战-06（3）】Loss function的理解和mini batch训练的理解

机器学习：全数据集学习一次，更新一次的情形
每学习一个样本，就更新一次网络参数：随机梯度下降
每学习一个batch，更新一次网络参数：mini batch
- - - Experience replay：transiiton库存储以及batch训练的详细解析和loss计算的理解

作者：刘兴禄，清华大学博士在读

这部分就是很久之前的一个整理，放过来有时候复习一下。

最重要的一点：

优化问题的目标函数，就相当于机器学习或者深度学习中的loss function。

这里有个隐藏的小常识，就是

$\begin{aligned} \min & \sum_{i=1}^N{\left( y_i-y_{i}^{\mathrm{label}} \right) ^2} \\ &= \min \left( y_1-y_{1}^{\mathrm{label}} \right) ^2 + \min \left( y_2-y_{2}^{\mathrm{label}} \right) ^2 + \cdots \min \left( y_N-y_{N}^{\mathrm{label}} \right) ^2 \\ & = \sum_{i=1}^{N} \min \left( y_i-y_{i}^{\mathrm{label}} \right) ^2 \end{aligned}$
因此，在最优解的时候，每一个样本 $i$ 对应的 $\left( y_i-y_{i}^{\mathrm{label}} \right) ^2$ 也会同时达到 $\min$ 。这个也是随机梯度下降和mini batch操作正确的原因。

batch_size是个超参数，需要用户自己调参。

机器学习：全数据集学习一次，更新一次的情形

我们假设有下面一个 $12 \times 3$ 的训练数据集，其中每条数据 $x_i = (a, b, c)$ 也就是一行数据，有3个特征。

这数据是一个二分类问题的数据，因此标签(label)是 $12 \times 1$ 。

在机器学习中，我们是想让神经网络预测飞常准，也就是们要让我们的预测值 $y_i$ 尽可能接近其label $y_i^{\text{label}}$ ，因此我们最优化的目标就是 (之所以加平方，是因为如果是一次方，需要加绝对值。二次方则不用，因此方便求导)

$\min \sum_{i=1}^N{\left( y_i-y_{i}^{\mathrm{label}} \right) ^2}$

在机器学习中，一般把这个目标函数称之为loss function，因此，在机器学习中，我们是叫

$\text{loss function} = \sum_{i=1}^N{\left( y_i-y_{i}^{\mathrm{label}} \right) ^2}$

所以这里需要注意：

优化问题的目标函数，就相当于机器学习或者深度学习中的loss function。

在这里插入图片描述
如上图所示，如果是最基本的情况，是我们将全数据集，也就是12个数据，依次喂给神经网络 (我们用 $Net(\theta)$ 表示这个神经网络)，然后得到12个输出，也就是得到12个预测值 $y_i, \forall i = 1, 2, \cdots, 12.$ 最后，我们计算目标函数值，也就是loss，用表达式
$\text{loss function} = \sum_{i=1}^N{\left( y_i-y_{i}^{\mathrm{label}} \right) ^2} = 1.58$
也就是说，在神经网络 $Net(\theta)$ 的参数为 $\theta = \theta_0$ 的时候，目标函数值为1.58.

接下来，我们要对目标函数 $\text{loss function} = \sum_{i=1}^N{\left( y_i-y_{i}^{\mathrm{label}} \right) ^2}$ 求导，这里就需要反向传播。

求导之后，我们要进行梯度下降更新神经网络 $Net(\theta)$ 的参数为

最低0.47元/天解锁文章

刘兴禄

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【强化学习实战-06（3）】Loss function的理解和mini batch训练的理解

这里需要画个图需要把之前的东西拿过来本来是要吧全部样本拿过来学习后来是随机梯度，就是学一个样本更新一遍之后是batch，学一部分，更新一下这几个需要解释一下。Experience replay：transiiton库存储以及batch训练的详细解析和loss计算的理解我们在replay buffer中存储的transitions的形式均为(st,at,rt,st+1)(s_t, a_t, r_t, s_{t+1})(st,at,rt,st+1)，因此，我们可以用一个数组或者Dat.
复制链接

扫一扫