VQA系列论文（四）

最新推荐文章于 2022-04-11 09:53:17 发布

jiojio-star

最新推荐文章于 2022-04-11 09:53:17 发布

阅读量1k

点赞数

分类专栏： VQA 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45667337/article/details/124076025

版权

标题：可解释的视觉问题回答的概率神经符号模型
来源：ICML 2019https://proceedings.mlr.press/v97/vedantam19a.html
代码：https://github.com/kdexd/probnmn-clevr

一、问题提出

neural-symbolic模型是神经和符号网络模型的结合。

神经网络参数的灵活可以挖掘到跟多的信息，但是缺乏解释性；

符号网络缺乏灵活的学习能力，但支持很强的泛化和系统性，且更加直观可解释。

本文从NMN出发，结合neural和program，深入探讨模型的推理能力。

对于VQA的image i 和question x, 生成一个程序program z, 利用program制定推理过程，使用神经网络进行具体运算。

例子：该例子中，基于问题，program首先从场景中过滤出cylinder和cube两个关键词，应用filter[cube]算子并关联[left]，之后和filter[cylinder]一起预测答案。

在构建program的过程中，将会动态产生一组参数θ，每一个参数代表一个模块。

本文的内容是在神经符号模型中引入了概率公式，通过这样的表达式，期望该模型满足可解释推理模型的一些自然需求。

二、主要思想

问题形式化定义：

输入图像： $i\in\ R^{U\times V}$

输入问题： $x=\left(x_1,...,x_t\right),\ \ x_t\in\ X$

回答： $a\in\ A$

前缀序列化程序program： $z=(z_1,...,z_t)\in\ Z$ ，其中给定符号 $z\in\ Z$ ，有一个对应的神经网络（后续可以动态的实例化神经网络）和参数 $\theta_z$ （给定z，这些都是确定的）。——该步定义类同于NMN神经模块网络中的模块

采用的数据集：
$D=\{x^n,z^n\}\cup\{x^m,a^m,i^m\}$
${x^m,a^m,i^m\}$ ：VQA数据集
${x^n,z^n\}$ ：指引数据集，需要人工标注（为了探索模型的学习效果，期望N<<M，即使用很少的注释program得到很好的学习效果）

概率图模型：

分为两个步骤：Generative Model和Inference Network

Generative Model

给定图像i，建立 $p\left(x,z,a\middle|\ i\right)$ 的模型，即关于问题、回答和program关系的模型。

模型分解为:

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
VQA系列论文（四）

论文阅读：《Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering》
复制链接

扫一扫

专栏目录

jiojio-star CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

111万+: 周排名

128万+: 总排名

1万+: 访问

: 等级

65: 积分

9: 粉丝

4: 获赞

1: 评论

33: 收藏

私信

关注

热门文章

分类专栏

VQA 6篇

最新评论

VQA系列论文（一）
宇and宇: 总结的很好！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。