2020_ICML_Neuro-Symbolic Visual Reasoning: Disentangling “Visual” from “Reasoning”

Neuro-Symbolic Visual Reasoning: Disentangling “Visual” from “Reasoning”

写在前面的话

  • 本文为对 paper 的简单粗读,如有理解不对的地方,欢迎大家指出
  • 本文的几种标记:
    • 红色 & 蓝色 & 黑体:表示强调
    • 绿色:表示不懂的地方
    • 紫色:引用的 paper

标题及出处

  • 标题:Neuro-Symbolic Visual Reasoning: Disentangling “Visual” from “Reasoning”

    神经符号视觉推理:将「视觉」与「推理」区分开

  • 出处:2020,ICML

粗读

  • motivation

    • a framework to isolate and evaluate the reasoning aspect of VQA separately from its perception,

      想提出一个框架,这个框架能用于将 VQA 的推理 (reasoning) 从感知 (perception) 分离开来,并进行隔离和评估

      (感知可以理解为是图像的特征向量)

    • a novel top-down calibration technique that allows the model to answer reason- ing questions even with imperfect perception

      想提出一种新颖的自上而下校准技术,

      即使在感知不完美的情况下,该模型也可以回答推理问题

      (自上而下的校准技术不太懂)

  • 模型

在这里插入图片描述

  • 收获 & 启发

    • Visual Reasoning (VR)

      • 常见的语言驱动的任务:(Introduction)

        • Visual Question Answering (VQA),视觉问答

        • Visual Commonsense Reasoning (VCR),视觉常识推理

      • 视觉推理是感知系统 (perception system) 和推理系统 (reasoning system) 的交互 (Introduction)

        • 感知系统

          即,对象检测 (object detection) 和场景表示学习 (scene representation learning)

        • 推理系统

          即,基于场景的问题解释和推理 (question interpretation and inference grounded in the scene)

    • GQA 数据集主要评估视觉感知,而不是模型的推理 (Introduction)

      • 可以访问真实场景图的神经符号 VQA 模型上,能在 GQA 数据集达到 96% 的精度

        (这里是 train 训练,valid 测试)

        (有问题:GQA 数据集生成时,也是拿场景图生成的)

      • 但更高的 GQA 准确率并不一定意味着推理能力更高

        (感知系统够强,推理系统不太行,准确率也能达到很高)

    • 神经符号推理模型 (neuro-symbolic VR model) (Related work)

      • 根据操作 (operators) 的简单分类:

        • 类似 MAC 的:自己学习操作 (没有显式的符号操作)
        • 类似 NMN 的:预定义操作
      • 神经符号推理的主要好处是它们的组合性 (compositionality)

        • 所有的问题共享各个模块相同的可学习参数

          (the learnable parameters of individual operators are shared for all questions)

        • 各个模块的中间表示可能会相互组合

          (the intermediate representations produced by each module are likely composable with each other)

        (如何理解?)

    • 视觉特征的来源 (section 3)

      • Object Detection:如 Faster-RCNN

      • Scene graph generation:Neural Motifs、Graph-RCNN

        (Neural Motifs:Neural motifs: Scene graph parsing with global context., 2018 CVPR)

        (Graph-RCNN:Graph R-CNN for scene graph generation., 2018 ECCV)

      • 还可以包含对象之间关系的特征

        (不太理解)

        关系特征已被证明在图像字幕和信息检索等任务中很有用(Lee et al., 2019)

        (Learning visual relation priors for image-text matching and image captioning with neural scene graph generators., 2019 )

    • 如何定义感知不够强? (Introduction)

      • 学到的对象表示 (object representations) 不包含足够的信息来确定对象的某些属性
    • 当视觉感知中存在漏洞时,这种经过预训练的知识将有助于推理过程

    • 结论

      • 当前的 Faster-RCNN 本身会产生不完善的表示

        这些表示不包含足够的信息,来通过直接的顺序处理来回答问题

      • 视觉感知 (visual perception) 上仍有很大的提升空间

      • 可按照本文的方法,来评估 VQA 模型的推理能力及敏感性

    • 代码

      与 GQA 数据集相关的 JSON 文件:https://github.com/microsoft/DFOL-VQA/tree/main/src/nsvqa/data/metadata

      • gqa_all_attribute.json
      • gqa_all_class.json
      • gqa_relation.json
      • gqa_vocab.json
      • op_map.json
  • 实验

    • 结论1:Faster-RCNN 特征本身具有足够的信息性

      • Faster-RCNN 特征为 GQA 中 51.86% 的实例提供正确答案 (无需借助 ∇-FOL 的推理功能)

        剩下的问题,不足以只根据视觉特征来回答问题

        (具体怎么实现的,没看懂)

      • 大约 2/3 的二元问题其视觉特征足以回答问题

        这也能解释,为什么早期分类器模型 (early classifier-based models) 在二元问题上工作的相当好

    在这里插入图片描述

    • The parameter-less ∇-FOL inference from Section 3 achieves 96% accuracy on the GQA validation split using the golden oracle O ∗ O^* O and the golden programs.
  • 存在的问题

    • 模型大部分都没看懂

      • 涉及一阶逻辑推理的内容和 ∇-FOL (神经符号推理模型)

        (∇-FOL:Neural-symbolic computing: An effective methodology for principled integration of machine learning and reasoning,2019)

    • GQA 提供的 golden programs (黄金程序) 是什么

在这里插入图片描述

版权声明:本文为晨旭OvO原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/a1228136188/article/details/115947152

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值