【论文阅读】Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision

【论文阅读】Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision

简介

主要解决的问题:在视觉推理中不清晰的文本推理的处理过程
解决的方法:使用图片内容生成问题
背后的数学原理:贝叶斯模型
原文https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123540528.pdf
代码https://github.com/GeraldHan/TRN

文章内容

abstract

对于视觉问答任务来说,视觉推理是非常重要的。然而,如果没有标注好的程序指令,在自然监督下隐式的推理还是非常具有挑战性的,并且之前的模型对于这一部分也难以解释。在这篇文章中,我们重新思考了视觉问答中的隐式推理,提出了一个新的模式可以最大似然估计出观察到的问题和预测的答案之间的联合分布。根据这个思路,我们设计了TRN网络把隐式的推理过程建模成潜在空间的序列预测。我们的模型在概率模型上的设计和在推理过程的可视化上面都是可解释的。我们用实验证明了TRN模型可以在各个数据集上都可以做到改进隐式推理过程。实验结果表明,我们的模型在已有的隐式推理模型上的结果是很有竞争性的,并且在复杂的推理任务上大幅度地超越了baseline而没有增加额外的算力。

introduction(简化版)

在视觉问答的任务中,视觉推理可以增强可解释性。
目前对于可解释的视觉推理有两类。第一种是在合成数据集例如CLEVR上完成的,使用了标注好的程序指令,引入了很多的额外知识。第二种是堆叠的注意力模型或者是在图上的推理。现有的方法都只是去最大化预测答案的可能性,而并没有去理解推理的过程。
众所周知,贝叶斯模型非常适用于可解释的机器学习,因为贝叶斯模型可以清楚地表示目标和特征之间的关系。我们为视觉问答任务从概率的角度再制定了一个新的贝叶斯可解释模型。
特别的是,我们重新调查了合成数据集中问题生成的过程,这表明了这些问题清晰地表达了推理的过程,反之亦然。而考虑到在自然界中,这种推理过程是不存在的,所以我们假设有一系列潜在的状态隐藏在问题的背后,这些状态可以分步指导图片每次关注的区域。这些潜在的状态就像生成的程序指令。
图一
但是我们并不像之前的工作一样只是简单地最大化答案的可能性,我们重新制定了另一种概率解释公式,它最大化了观察到的问题和预测答案的联合分布的对数似然函数。这样答案的分布和指导推理过程的潜在状态可以同时优化。
在可解释的推理过程中有三个基础的模块:状态转变,状态推理和生成性的重建。对于普通的模型,TRN网络的加入可以看作一个正则化项(通过正则化项,可以保持参数值较小,使得拟合出来的曲线更加平滑,增强泛化性能),在测试的过程中可以被移除。这个过程是可以用数学证明的,并且可视化的结果也表明了我们的模型的有效性。主要的贡献有如下三条:
1 我们在自然监督下为真实世界的 VQA 任务中的视觉推理制定了一种新的概率解释。
2 遵循新的概率框架,我们提出了一个序列潜在状态模型 TRN,它在模型设计和答案预测上都可以解释。
3 TRN 可以很好地与现有模型协作。 它可以帮助像 UpDn 这样的浅层模型在 VQA v2、CLEVR 和 CLEVR-Human 数据集上获得与最先进的隐式推理方法相当的结果,并增强对现有黑盒推理模型(如 BAN)的解释。
代码可在 https://github.com/GeraldHan/TRN 获得。

method

模型的定义

对于VQA任务来说,通用的模型结构如下:

在这里插入图片描述
v是图片的特征,x是由长度为L的单词组成的问题,a为预测出的答案,Pr表示训练好的分类模型。但是这种方法没有明确地模拟推理过程。我们假设有一系列的状态变量 z = { z t } t = 1 T z=\{ {z_t}\}_{t=1}^T z={ zt}t=1T 表示了问题背后的推理程序。时间依赖的 z t {z_t} zt是由当前的问题和图片特征决定的。图二(a)给了推理过程的图标是一个很细节的解释。根据图模型,我们把图片特征 v v v作为全局条件,问题单词 x x x作为序列的信息并假设完全贝叶斯状态空间模型的一般形式。这个模型的概率公式是求联合概率分布为 p ( a , x , z ∣ v ) p(a,x,z|v) p(a,x,zv),我们的目标是通过后验概率 p ( z ∣ x , v ) p(z|x,v) p(zx,v)找到模型中的evidence的近似值 p ( a , x ∣ v ) p(a,x|v) p(a,xv)。对数边缘evidence概率可以分解为(最简单的贝叶斯公式推一下就ok):
在这里插入图片描述
所以模型可以被分成两个单独的部分。后面一部分和传统的视觉问答模型一样。前一部分对通过观察问题 x x x的最大数据似然优化的时间推理过程进行建模,其中潜在状态 z z z可以通过变分推理优化为潜在变量。使用这种全概率公式对推理过程进行显式建模并将其注入现有方法是这项工作的主要贡献。

在这里插入图片描述

具体学习过程

补充知识:变分推断
变分推断的目标函数: p ( z → ∣ x → ) = p ( z → , x → ) p ( x → ) p(\overrightarrow{z}|\overrightarrow{x})=\frac{p(\overrightarrow{z},\overrightarrow{x})}{p(\overrightarrow{x})} p(z x )=p(x )p(z ,x )
其中 p ( x → ) = ∫ p ( z → , x → ) d ( z → ) p(\overrightarrow{x})=\int p(\overrightarrow{z},\overrightarrow{x})d(\overrightarrow{z}) p(x )=p(z ,x )d(z )为evidence
在变分推断中,我们求和 p ( z → ∣ x → ) p(\overrightarrow{z}|\overrightarrow{x}) p(z x )KL距离最小的优化问题,通过找到 q ( z ) q(z) q(z)来计算后验分布
在这里插入图片描述
KL散度的公式为: D K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D_{KL}(p||q)=H(p,q)-H(p) DKL(pq)=H(p,q)H(p)
所以 K L ( q ( z → ) ∣ ∣ p ( z → ∣ x → ) ) = E ( log ⁡ q ( z → ) ) − E ( log ⁡ p ( z → ∣ x → ) ) = E ( log ⁡ q ( z → ) ) − E ( log ⁡

技术选型 【后端】:Java 【框架】:springboot 【前端】:vue 【JDK版本】:JDK1.8 【服务器】:tomcat7+ 【数据库】:mysql 5.7+ 项目包含前后台完整源码。 项目都经过严格调试,确保可以运行! 具体项目介绍可查看博主文章或私聊获取 助力学习实践,提升编程技能,快来获取这份宝贵的资源吧! 在当今快速发展的信息技术领域,技术选型是决定一个项目成功与否的重要因素之一。基于以下的技术栈,我们为您带来了一份完善且经过实践验证的项目资源,让您在学习和提升编程技能的道路上事半功倍。以下是该项目的技术选型和其组件的详细介绍。 在后端技术方面,我们选择了Java作为编程语言。Java以其稳健性、跨平台性和丰富的库支持,在企业级应用中处于领导地位。项目采用了流行的Spring Boot框架,这个框架以简化Java企业级开发而闻名。Spring Boot提供了简洁的配置方式、内置的嵌入式服务器支持以及强大的生态系统,使开发者能够更高效地构建和部署应用。 前端技术方面,我们使用了Vue.js,这是一个用于构建用户界面的渐进式JavaScript框架。Vue以其易上手、灵活和性能出色而受到开发者的青睐,它的组件化开发思想也有助于提高代码的复用性和可维护性。 项目的编译和运行环境选择了JDK 1.8。尽管Java已经推出了更新的版本,但JDK 1.8依旧是一种成熟且稳定的选择,广泛应用于各类项目中,确保了兼容性和稳定性。 在服务器方面,本项目部署在Tomcat 7+之上。Tomcat是Apache软件基金会下的一个开源Servlet容器,也是应用最为广泛的Java Web服务器之一。其稳定性和可靠的性能表现为Java Web应用提供了坚实的支持。 数据库方面,我们采用了MySQL 5.7+。MySQL是一种高效、可靠且使用广泛的关系型数据库管理系统,5.7版本在性能和功能上都有显著的提升。 值得一提的是,该项目包含了前后台的完整源码,并经过严格调试,确保可以顺利运行。通过项目的学习和实践,您将能更好地掌握从后端到前端的完整开发流程,提升自己的编程技能。欢迎参考博主的详细文章或私信获取更多信息,利用这一宝贵资源来推进您的技术成长之路!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值