【论文】Learning by Abstraction: The Neural State Machine

最新推荐文章于 2022-04-12 17:14:19 发布

Enzo_lu4cky

最新推荐文章于 2022-04-12 17:14:19 发布

阅读量1.6k

点赞数 3

分类专栏：论文阅读整理、翻译、笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43266916/article/details/105694437

版权

论文标题：Learning by Abstraction: The Neural State Machine
论文链接
论文发表：

继续看Neural-Symbolic相关的论文，这次是斯坦福Manning大神的“神经状态机（NSM）”,不知道是不是看过CS224n的原因，看这篇论文，感觉更加习惯他对方法描述的方式。

Abstract & Intro
与大多数旨在与原始感官数据紧密交互的神经结构相反，我们的模型通过将视觉、语言形式都转换为i基于语义概念的表示形式，从而在抽象的潜在空间中运行，从而实现模块化，增强透明度。
我们经历两个阶段：建模和推理（modeling and inference）。从图像开始，我们首先生成一个概率场景图，捕获其语义知识。节点与对象相对应，并由其属性的结构化表示组成，而边缘则描述其空间和语义关系。一旦有了场景图，我们便将其视为状态机，并在其上模拟迭代计算，旨在回答问题或得出推论。我们将给定的自然语言问题转换为一系列软指令，然后一次将它们一次输入到机器中以执行顺序推理，并注意遍历其状态并计算答案。

在这里插入图片描述

神经状态机是一个图网络模型，可模拟机械计算。对于VQA任务，该模型构造一个概率场景图以捕获给定图像的语义，然后将其视为状态机，按照问题的指导遍历其状态以执行顺序推理。

Neural State Machine (NSM) 架构

神经状态机模型分为两大部分：学习阶段 （构建状态机）和 推理阶段（运行模型，得出答案）。

建模过程：将图像和语言转化为抽象（机器学习）的表示。将图像转化为概率图用以表示其语义：目标，属性，关系。问题被准换成一个推理指令序列。
推理过程：将概率场景图视为状态机，节点代表图像中的目标，对应状态，而边代表目标之间的关系，对应转移（transitions）。启动序列计算，迭代地将从问题中提取的指示输入机器，并改变状态，使得模型可以进行语义-图像推理，并最终到达结果。

状态机定义由一特征值元组来表现： $(C,S,E,\{r_i\}_{i=0}^N,p_0,\delta)$
C: 一组嵌入后的概念词汇
S: 状态(state)的集合
E: 有向边界(directed edge)的集合，用以指定状态间的transition
$r_i$ : 一个instructions序列，维数为d，作为输入传递给transition函数 $\delta$
$p_0$ : $S\rightarrow[0,1]$ 初始状态概率分布
$\delta_S,_E: p_i \times r_i \rightarrow p_{i+1}$