视觉常识R-CNN,如何让机器更好地理解图片?


hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。

文末了解《人工智能Mix》 

视觉常识R-CNN

Visual Commonsense R-CNN

给定图像中检测到的一组对象区域(例如,使用Faster R-CNN),就像其他任何无监督的特征学习方法(例如word2vec,可以捕捉到语言的上下文关系)一样,VC R-CNN的代理训练目标是预测对象的上下文对象。

VC R-CNN的预测是使用因果干预:P (Y | do(X )),而其他方法是使用常规可能性:P (Y | X )。

 

如上图所示,由于缺乏常识,不难发现机器所犯的“认知错误”。仅使用视觉功能,即基于流行的Faster R-CNN ,机器通常无法描述确切的视觉关系(图像生成字幕示例),或者即使如果预测正确,则潜在的视觉注意力不合理。

 

- VC R-CNN的架构

最核心的是Do-expression(因果模块),其中Confounder Dictionary 干扰因子字典存储了常识。如下图所示:

如何理解上图呢?我们的视觉世界存在许多干扰因素,从可能性只能学习到伪相关的P,如上左图。作者举了个例子,如下图

 

机器识别到了Person、Toilet,那到底是什么会紧跟着person跟Toilet这个场景的出现?是sink,还是hanbag?还是chair?有这么一个Confounder Dictionary,见下图:


可见,

P(z=sink|X=toilet) > P(z=chair|X=toilet),

于是

P(Y =person|X=toilet,z=sink) >P(Y =person|X=toilet,z=chair)

这样机器就可以预测小孩在马桶边的下一个对象可能是什么。

 

原文地址:

https://arxiv.org/pdf/2002.12204.pdf

代码:

https://github.com/Wangt-CN/VC-R-CNN

作者解读:

https://zhuanlan.zhihu.com/p/111306353


更多内容,欢迎在专栏《人工智能MIX》中讨论。

即将恢复原价

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R-CNN、Fast R-CNN和Faster R-CNN是目标检测领域的三个重要算法,用于在图像中检测和定位物体。 1. R-CNN(Region-based Convolutional Neural Networks)是一种基于区域的卷积神经网络方法。它首先在输入图像中生成候选区域,然后对每个候选区域进行卷积特征提取,并使用支持向量机(SVM)进行分类。最后,使用回归器对候选区域进行边界框的微调。R-CNN的主要缺点是速度较慢,因为每个候选区域都需要独立地进行卷积特征提取和分类。 2. Fast R-CNN是对R-CNN的改进。它引入了RoI池化层(Region of Interest pooling),可以在整个图像上共享卷积特征提取,从而大大提高了速度。Fast R-CNN首先对整个图像进行卷积特征提取,然后根据候选区域的位置信息,在卷积特征图上进行RoI池化,将每个候选区域映射为固定大小的特征向量。最后,通过全连接层进行分类和边界框回归。 3. Faster R-CNN是对Fast R-CNN的进一步改进,主要改进了候选区域的生成过程。Faster R-CNN引入了一个称为Region Proposal Network(RPN)的网络,用于生成候选区域。RPN通过在卷积特征图上滑动一个小窗口,预测窗口内是否包含物体以及物体的边界框。然后,这些候选区域被输入到Fast R-CNN中进行分类和边界框回归。Faster R-CNN通过共享卷积特征提取和引入RPN网络,进一步提高了检测速度和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值