《推荐系统笔记（九））》DNN的BP算法（内含详细数学推导）

最新推荐文章于 2022-10-04 14:53:14 发布

wangxinRS

最新推荐文章于 2022-10-04 14:53:14 发布

阅读量741

点赞数 1

分类专栏： DNN 文章标签：推荐系统

本文链接：https://blog.csdn.net/qq_30841655/article/details/107704085

版权

DNN 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

推荐系统中，我们通常用深度神经网络（DNN）来学习高阶（非线性）特征。这篇博客中，我们将详细介绍DNN的BP算法。

如果觉得此文过长或者写得不容易懂的，可以看看B站上的一个视频讲解（链接），内容较为简单。

DNN

我们可以将DNN分成三个部分，

输入层
隐藏层
输出层

接下来，我们以三层DNN为例。

1. 输入层

对于输入层，我们假设输入数据 $x$ 有 $n$ 个特征，即
$x=(x^{(1)}, x^{(2)}, ..., x^{(n)})$

2. 第一层隐藏层

第一层隐藏层的输出为 $m$ 维向量，这样，从输入层到第一层隐藏层，可以看做是从 $n$ 维到 $m$ 维的转化。我们需要

权重矩阵 $W_{n\times m}$ ，将 $n$ 维列向量转化为隐藏层 $m$ 维列向量
激活函数 $\sigma$ ，对 $m$ 维列向量的每一个元素做激活处理（常用的激活函数有sigmoid，Relu等）

我们将权重矩阵 $W_{n\times m}$ 重写为
$W_{n\times m}=(w_1, w_2, ..., w_m)$

其中， $w_i$ 为 $n$ 维列向量。这样，第一层隐藏层的输出为 $m$ 维向量
$output_1=\left(\sigma(xw_1), \sigma(xw_2), ..., \sigma(xw_m)\right)$

3. 第二层隐藏层

对于第二层隐藏层，以第一层隐藏层输出 $output_1$ 为输入，我们假设输出同样是 $m$ 维向量，权重矩阵为 $N_{m\times m}=(n_1, n_2, ..., n_m)$

其中， $n_i$ 为 $m$ 维列向量。这样，第二层隐藏层的输出为 $m$ 为向量
$output_2=\left(\sigma(output_1\cdot n_1), \sigma(output_1\cdot n_2), ..., \sigma(output_1\cdot n_m)\right)$

4. 输出层

输出层以第二层隐藏层的输出 $output_2$ 为输入，输出的是一个数，我们假设权重矩阵为 $P_{m\times 1}=(p_1, p_2, ..., p_m)$

其中， $p_i$ 为数字。这样，输出层的输出为数字
$\begin{array}{lll} Output&=&output_2\cdot P\\ &=&\sigma(output_1\cdot n_1)\cdot p_1 + \sigma(output_1\cdot n_2)\cdot p_2+\\ && ... + \sigma(output_1\cdot n_m)\cdot p_m \end{array}$

BP算法

BP算法是将误差从后向前传播，最后确定权重矩阵的更新策略。

1. 误差

给定一个数据 $(x, y)$ ，我们有误差
$Loss=\frac{1}{2}\left(y-Output\right)^2$

2. 链式法则

假设 $F (x) = f (g (x))$ ，则有链式法则 $\frac{\partial F(x)}{\partial x}=\frac{\partial F}{\partial g}\cdot\frac{\partial g}{\partial x}$

3. 反向传播

我们将依次从后往前确定权重矩阵的更新策略，也就是

先确定权重矩阵 $P$ 的更新策略
再确定权重矩阵 $N$ 的更新策略
最后确定权重矩阵 $W$ 的更新策略

3.1 $P$ 的更新

对 $L o s s$ 关于 $p_i$ 求导，我们有
$\begin{array}{lll} \frac{\partial Loss}{\partial p_i}&=&(Output-y)\cdot \frac{\partial Output}{\partial p_i}\\ &=&(Output-y)\cdot \sigma(output_1\cdot n_i) \end{array}$

这样，更新策略为
$p_i\leftarrow p_i-\alpha \frac{\partial Loss}{\partial p_i}$

3.2 $N$ 的更新

对 $L o s s$ 关于 $n_{i, j}$ 求导，我们有
$\begin{array}{lll} \frac{\partial Loss}{\partial n_{i, j}}&=&(Output-y)\cdot \frac{\partial Output}{\partial n_{i, j}}\\ &=&(Output-y)\cdot p_i \frac{\partial \sigma(output_1\cdot n_i) }{\partial n_{i,j}}\\ &=&(Output-y)\cdot \dot \sigma(output_1\cdot n_i)p_i\sigma(xw_j) \end{array}$

其中， $\dot \sigma(x)=\frac{\partial \sigma(x)}{\partial x}$ 。

这样，更新策略为
$n_{i,j}\leftarrow n_{i,j}-\alpha \frac{\partial Loss}{\partial n_{i,j}}$

3.3 $W$ 的更新

对 $L o s s$ 关于 $n_{i, j}$ 求导，我们有
$\begin{array}{lll} \frac{\partial Loss}{\partial w_{i, j}}&=&(Output-y)\cdot \frac{\partial Output}{\partial w_{i, j}}\\ &=&(Output-y)\cdot p_i \frac{\partial \sigma(output_1\cdot n_i) }{\partial w_{i,j}}\\ &=&(Output-y)\cdot \dot \sigma(output_1\cdot n_i)p_i\frac{\partial \sigma(xw_j)}{\partial w_{i,j}}\\ &=&(Output-y)\cdot \dot \sigma(output_1\cdot n_i)p_i\dot\sigma(xw_j)x_j \end{array}$

这样，更新策略为
$w_{i,j}\leftarrow w_{i,j}-\alpha \frac{\partial Loss}{\partial w_{i,j}}$

其实，上面就是不断用链式法则计算导数的过程。

wangxinRS

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《推荐系统笔记（九））》DNN的BP算法（内含详细数学推导）

前言推荐系统中，我们通常用深度神经网络（DNN）来学习高阶（非线性）特征。这篇博客中，我们将详细介绍DNN的BP算法。DNN我们可以将DNN分成三个部分，输入层隐藏层输出层接下来，我们以三层DNN为例。1. 输入层对于输入层，我们假设输入数据xxx有nnn个特征，即x=(x(1),x(2),...,x(n))x=(x^{(1)}, x^{(2)}, ..., x^{(n)})x=(x(1),x(2),...,x(n))2. 第一层隐藏层第一层隐藏层的输出为mmm维向量，这样，从输
复制链接

扫一扫