行人属性“Contextual Action Recognition with R*CNN”

静态图像的行人行为识别,论文挖掘行为行为的上下文信息构建识别系统。
源代码: https://github.com/gkioxari/RstarCNN

在静态图像的行为识别中,人体的姿态,行人周围的物体,行人与物体的交互方式和场景都是重要的线索。论文使用RCNN,提取不止一个区域进行预测,即R*CNN。R*CNN有一个包含人体的首要区域,还有一个次要区域包含上下文线索。

如何选择次要区域呢,由多实例学习(MIL)和Latent SVM,给定图像I和人体区域r,行为 α 的得分为:
这里写图片描述
次要区域 R(r;I) 可以是区域r的临近区域的集合,给定每个行为的得分,使用softmax计算区域r中行人的行为为 α 的概率为:
这里写图片描述

方法描述
1. 网络结构
对于输入图像I,选择人体的bbox作为首要区域,次要区域来自proposals。对每个行为 α ,选择包含信息次要区域,将其得分添加到首要区域(公式1),然后使用softmax操作将得分转换到估计的后验概率。网络的结构为:
这里写图片描述
2. 方法描述
基于Fast RCNN,FRCN的流程:一个自适应最大池化层将最后一个卷积层和一些列ROIs作为输入,输出每个ROI固定尺寸的特征图。之后将ROI-池话特征输入到全链接层作预测。
论文的方法:图像的首要区域预测一个得分,次要区域集中每个区域独立预测一个得分,通过max操作将这些得分综合到首要区域。次要区域 R(r;I) 如下定义:
R(r;I)=sS(I):overlap(s,r)[l,u]
S(I) 是proposals,使用Selective Search获得。重合率的上下边界定义了次要区域集合。
3. 训练
最小化预测的log损失:
这里写图片描述
对每个首要区域,在次要区域集合中随机选择N个区域

实验结果
Pascal VOC 2012行为识别结果对比:
这里写图片描述

Berkeley属性识别结果对比:
这里写图片描述

次要区域显示:
这里写图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值