【无标题】

Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks
观察主客体交互的动力学来研究动作的组合性。我们提出了一种新的模型,该模型可以明确地推理组成对象和执行动作的代理之间的几何关系。
它们不能完全捕捉动作和对象的组成性。这些方法侧重于提取整个场景的特征,并没有明确地将对象识别为单个实体;场景级卷积算子可能更多地依赖于空间外观,而不是时间变换或几何关系。
最近,研究人员利用最近提出的图形神经网络[38]研究了视频的时空图形表示。这些方法将密集对象提议作为图节点,并学习它们之间的关系。虽然这无疑为在视频理解中引入关系推理打开了一扇大门,但对3D ConvNet基线的改进并不十分显著。通常,这些方法使用基于每个帧中大量对象建议的非特定对象图,而不是稀疏的语义基础图,该图模拟了动作中代理和组成对象的特定交互。
在本文中,我们提出了一种基于为每个动作学习的稀疏且语义丰富的对象图的模型。我们在演示的动作中使用精确定位的对象框来训练我们的模型。我们的模型学习主客体之间的显式关系;事实证明,这是成功识别合成动作的关键。我们利用最先进的对象检测器准确定位视频中的主题(代理)和组成对象,对其执行多对象跟踪,并为属于同一实例的盒子形成多个轨迹。

Temporal Extension Module for Skeleton-Based Action Recognition
现有方法试图在帧内表示更合适的空间图,但忽略了帧间时间图的优化。具体来说,这些方法在仅对应于帧间同一关节的顶点之间进行连接。在这项工作中,我们重点关注在帧间添加到相邻多个顶点的连接,并基于扩展时间图提取额外的特征。我们的模块是一种简单而有效的方法来提取人体运动中多个关节的相关特征。

Spatial– tempo

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值