©PaperWeekly 原创 · 作者|孙裕道
学校|北京邮电大学博士生
研究方向|GAN图像生成、情绪对抗样本生成
背景介绍
BP(反向传播)是有 Geffrey Hinton 在 1988 年发表的论文《Learning representations by back-propagating errors》 中首次被提出来。
该论文从题目到内容到参考文献一共 2 页半,Hinton 也借此工作荣获 2018 年的图领奖。在深度学习领域,BP 的重要程度在怎么强调也不为过,本文会从矩阵的视角对 BP 进行详细推导,为了更好地理解 BP 的工作原理,本文也画了大量的示意图帮助理解。
本文的公式经过自己很多次的推导打磨,尽力做到准确无误,每一张图也是反复的捉摸力求精准表达。本文的阅读难度确实很大,但是因为其重要,我觉得反复抄写下面的推导,也会有很多收获。
引言
在吴恩达的斯坦福机器学习的讲义中关于 BP 原理的介绍只给出了最后的 BP 矩阵的推导结果,略去了中间的推导过程。本文会对略去的推导过程进行补全。为了减少阅读阻碍,BP 矩阵证明过程会从预备知识开始慢慢铺展开来,其中最难啃的部分就是矩阵形式的链式法则。本文文章结构和的各个章节的内容如下:
p 3 是一些预备知识介绍了矩阵求导的细节,如果想要看懂之后的 BP 矩阵推导这部分的两个小节一定要看明白
p 4 是关于 4 层无激活函数的 BP 推导细节
p 5 是关于 L 层无激活函数的 BP 推导细节
p 6 是关于 4 层含激活函数的 BP 推导细节
p 7 是关于 L 层含激活函数的 BP 推导细节
p 8 是对吴恩达机器学习讲义中关于 BP 章节结果的验证
预备知识
3.1 推导形式1
已知, 是标量即 , , , , , 表示向量的 2 范数,将矩阵中各个维度带入到公式(1)有如下形式:
令 , 。则对矩阵 的链式法则的求导公式如下所示:
其中 ,,直观可以发现等式(3)左右两边的雅可比矩阵维度一致。对矩阵 的链式法则的求导公式如下所示: 其中 ,,等式(4)左右两边的雅可比矩阵维度一致。3.2 推导形式2
是激活函数, 是标量即 , , , ,