Visual Semantic Role Labeling 文章理解速递

Visual Semantic Role Labeling,CS,2015

论文链接

摘要

1)动机:经典的动作识别方法要么研究在图像或视频剪辑水平上的动作分类任务,要么最多是在做动作的人周围产生一个边界框。这样的输出对图像完全理解是不够的。
2)内容:提出了 Visual Semantic Role Labeling视觉语义角色标记任务:给定一个图像,检测到正在做行动的人,并定位交互的对象。

Introduction

1)动机:目前的动作识别数据集将每个人划分为k种不同的活动,并专注于粗糙的活动(比如“打棒球”、“烹饪”、“园艺”)。我们认为这样的一个粗略的理解是不完整的,只有当我们能够推理构成每个这样的活动的细粒度的动作(比如“击中”用球棒打球,用刀“切”洋葱,用割草机“割”草坪),并能够针对每个动作将场景中不同语义角色的物体联系起来。如下图所示:
在这里插入图片描述
2)Visual Semantic Role Labeling:推理细粒度的动作,并检测这个动作的各种语义角色:agent(粉框)、instrument(蓝框)和物体(橙框)。
下表列出了我们研究的一系列行动以及各种角色:
在这里插入图片描述
3)数据集V-COCO( Verbs in COCO):在Microsoft COCO (Common Objects in COntext) 数据集上进行注释标记构建这个任务的数据集。与大多数现有的数据集不同,这些数据集都有对象或动作标记,这个工作使COCO除了详细的对象实例分割标记之外,现在还有详细的动作标签。
V-COCO数据集总共包含10346张图像,其中包含16199个人的实例。每个带注释的人都有26个不同动作的二进制标签。V-COCO数据集被分割为train、val和test,train和val来自COCO的train集,而测试集来自COCO的val集。
在这里插入图片描述

优缺点

优点:细粒度、包括了动作类别和动作相关的语义角色
缺点:一个动作对应N个语义角色,例如用球拍击打球,因此难以确定语义角色的数量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值