变分贝叶斯深度学习综述

最新推荐文章于 2024-07-05 21:39:16 发布

PaperWeekly

最新推荐文章于 2024-07-05 21:39:16 发布

阅读量3.1k

点赞数 5

文章标签：神经网络算法机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/123649832

版权

©PaperWeekly 原创 · 作者 | 薛博阳

单位 | 香港中文大学

研究方向 | 语言模型

引言

近年来，贝叶斯深度学习（Bayesian Deep Learn-ing）在诸多领域得到广泛关注应用，效果显著。本文将针对贝叶斯深度学习框架进行系统性的概述，包括模型不确定性的引入；贝叶斯神经网络（Bayesian Neural Network）、高斯过程（Gaussian Process）、变分自编码器（Variational Auto-Encoder）三个主流模型的介绍，以及如何使用变分推断（Variational In-ference）求解上述模型的潜在变量分布；最后对相关参考文献进行总结。

深度学习的不确定性

首先谈下为什么要引入贝叶斯深度学习方法。贝叶斯深度学习能够对传统深度学习模型的不确定性（Model Uncertainty）建模，随着近年来卷积神经网络，Transformer 等发展，主流深度学习框架变得越来越复杂，网络深度可达成百甚至上千层，参数量也超过数千亿。这些大规模的神经网络虽然对信息感知和特征提取能力越来越强，但也存在在有限数据集上容易过拟合及模型泛化能力弱的隐患。

针对这个问题，一种常用的方法是引入 Dropout，在模型训练时使用由一个超参数控制的伯努利分布对所有网络节点随机选择丢弃，使每次训练迭代的网络都不完全相同，引入了模型结构的不确定性；而在预测时则考虑所有节点，可看作所有训练中不同网络的集成（Ensemble）或平均，从而有效减小了过拟合，Dropout 中的超参数通常需要手动调节。

另一种方法是在网络参数上加入随机噪声，这相当于引入参数的不确定性。然而这些不确定性建模方法都只是简单的正则化，缺乏严谨的数学表述推理论证。深度学习任务通常有两种不确定性，一种是来源于数据噪声的随机不确定性（Aleatoric Uncertainty），另一种就是重点关注的模型不确定性，在不同模型框架上又可分为参数不确定性，结构不确定性以及隐变量的不确定性。下面使用一个更直观的例子来说明引入不确定性如何有效提升模型泛化能力。

传统深度学习模型都是确定函数的点估计（Point Estimation），对于一个鉴别狗品种的图像分类模型，如果输入一张训练集分布外的图像，如一只猫的照片，那样识别结果将很离谱。于是我们希望能在模型返回预测结果时附带不确定性信息，也可以看做对结果的置信度。这需要引入能对不确定性建模的概率模型（Probabilistic Model），如下图所示的二氧化碳浓度预测模型，蓝色虚线左边是观测数据，右边是测试数据；对于测试部分的数据点，传统的深度学习模型会给出确定的预测，如左图红色虚线所示；而概率模型则会对未知的测试部分均采用概率分布来表示，如右图蓝色阴影部分所示，在数据集不能学习到准确的数据分布的情况下（当然实际所用的所有数据集都是有限的），很显然引入不确定性更合理，这也是能有效提升模型泛化能力的原因。

▲ 图1. 传统深度学习模型（左）与概率模型（右）对二氧化碳浓度的预测

这里的概率模型就是用的贝叶斯方法建模，假设存在数据集和标签集，在预测测试数据对的概率分布时，根据边缘概率计算，我们有

其中为模型参数，问题就转换为求参数在训练集上的最大后验分布的问题。根据贝叶斯公式，有

传统深度学习通常是对参数进行定参估计，而贝叶斯模型把参数看做概率分布，需要对所有值进行积分，按照 Bishop 的《Pattern Recognition and Machine Learning》的定义，这种积分是贝叶斯方法的核心，在深度学习模型上应用贝叶斯方法就统称为贝叶斯深度学习。我们对公式（2）分母部分进行归一化积分，有

这部分也称作模型证据（Model Evidence）或边缘似然（Marginal Likelihood）分布。由于积分的存在，通常很难求得解析解，这就需要用到一些近似推断方法。至此，我们从不确定性，概率模型，贝叶斯方法的基本思路着手，明确了贝叶斯深度学习和不确定性的关系，下面就来讲贝叶斯深度学习里最经典的模型——贝叶斯神经网络。