©PaperWeekly 原创 · 作者|尹娟
学校|北京理工大学博士生
研究方向|随机过程、复杂网络
论文标题:Bayesian Neural Networks: An Introduction and Survey
论文链接:https://arxiv.org/abs/2006.12024
引言
下一代神经网络的演化方向是什么?最近两年在北京举行的智源大会都谈到了这个问题,可能性的一个答案是贝叶斯神经网络,因为它可以对已有的知识进行推断。逻辑推理作用就是可以对已有的知识进行延伸扩展。
举个例子,如果询问训练完善的 AI 模型的一个问题,“在乌克兰,新西兰,新加坡,阿尔及利亚这四个国家里,哪一个国家位于中国的最西边”,这个问题的难点就在于那个“最”字,如果是传统的 AI 模型可能会蒙圈,因为乌克兰和阿尔及利亚都是在中国的西边,因为现有的训练的知识并不足以告诉它哪个是最西边,经过 BNN(贝叶斯神经网络)训练的模型可能会从经纬度,气温等其他信息进行推断得出一个阿尔及利亚在中国的最西边这个答案。
BNN 的最新进展值得每个 AI 研究者紧密关注, 本文就是一篇新鲜出炉的关于 BNN 的综述,为了方便读者的阅读,我按照自己的节奏和想法重新梳理了一下这篇文章。神经网络
先回顾一下传统神经网络,论文限于篇幅的原因有一些重要的细节没有展开,而且我一直觉得神经网络中一个完善的形式应该是通过矩阵的形式表现出来,同理矩阵形式 BP 反向传播原理也能一目了然。 2.1 标量形式的神经网络 下图为标量形式的神经网络,并且为了说明方便不考虑偏置项。 给定一个训练样本 ,假设模型输出为 ,则均方误差为: 根据梯度下降法更新模型的参数,则各个参数的更新公式为: 链式法则求解 会有如下推导形式: 链式法则求解 会有如下推导形式: 可以发现标量视角下的神经网络更新参数求解梯度会给人一种很混乱的感觉。2.2 矩阵形式的神经网络
下图为 3 层不考虑偏置项的全连接神经网络示意图:上图可以描述为如下公式:
损失函数如下所示:
优化的目标函数为:
其中, 表示的权重矩阵, 为隐层向量。 2.2.1 随机梯度 采用随机梯度下降法求解优化深度神经网络的问题,如下式所示: 上式中,主要的问题是在于计算 ,通常采用的方法是链式法则求导。而反向传播就是一种很特殊的链式法则的方法。反向传播非常有效的避免大量的重复性的计算。2.2.2 无激活函数的神经网络
L 层神经网络的无激活函数的目标函数定义为: 则各个层的梯度有如下形式: