Visual Semantic Role Labeling 文章理解速递

Yuggie_Sue

已于 2023-03-31 17:52:51 修改

阅读量467

点赞数

文章标签：计算机视觉人工智能深度学习

于 2023-03-31 17:23:16 首次发布

本文链接：https://blog.csdn.net/Cloris_Sue/article/details/129868481

版权

Visual Semantic Role Labeling，CS，2015

论文链接

摘要

1）动机：经典的动作识别方法要么研究在图像或视频剪辑水平上的动作分类任务，要么最多是在做动作的人周围产生一个边界框。这样的输出对图像完全理解是不够的。
2）内容：提出了 Visual Semantic Role Labeling视觉语义角色标记任务：给定一个图像，检测到正在做行动的人，并定位交互的对象。

Introduction

1）动机：目前的动作识别数据集将每个人划分为k种不同的活动，并专注于粗糙的活动（比如“打棒球”、“烹饪”、“园艺”）。我们认为这样的一个粗略的理解是不完整的，只有当我们能够推理构成每个这样的活动的细粒度的动作(比如“击中”用球棒打球，用刀“切”洋葱，用割草机“割”草坪)，并能够针对每个动作将场景中不同语义角色的物体联系起来。如下图所示：
在这里插入图片描述
2）Visual Semantic Role Labeling：推理细粒度的动作，并检测这个动作的各种语义角色：agent（粉框）、instrument（蓝框）和物体（橙框）。
下表列出了我们研究的一系列行动以及各种角色：

3）数据集V-COCO( Verbs in COCO)：在Microsoft COCO (Common Objects in COntext) 数据集上进行注释标记构建这个任务的数据集。与大多数现有的数据集不同，这些数据集都有对象或动作标记，这个工作使COCO除了详细的对象实例分割标记之外，现在还有详细的动作标签。
V-COCO数据集总共包含10346张图像，其中包含16199个人的实例。每个带注释的人都有26个不同动作的二进制标签。V-COCO数据集被分割为train、val和test，train和val来自COCO的train集，而测试集来自COCO的val集。
在这里插入图片描述

优缺点

优点：细粒度、包括了动作类别和动作相关的语义角色
缺点：一个动作对应N个语义角色，例如用球拍击打球，因此难以确定语义角色的数量

Yuggie_Sue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
Visual Semantic Role Labeling 文章理解速递

1）动机：经典的动作识别方法要么研究在图像或视频剪辑水平上的动作分类任务，要么最多是在做动作的人周围产生一个边界框。这样的输出对图像完全理解是不够的。2）内容：提出了Visual Semantic Role Labeling视觉语义角色标记任务：给定一个图像，检测到正在做行动的人，并定位交互的对象。
复制链接

扫一扫