行人属性“Contextual Action Recognition with R*CNN”

最新推荐文章于 2024-07-16 13:34:36 发布

cv_family_z

最新推荐文章于 2024-07-16 13:34:36 发布

阅读量1.7k

点赞数 1

分类专栏：行人属性深度学习

本文链接：https://blog.csdn.net/cv_family_z/article/details/78250205

版权

深度学习同时被 2 个专栏收录

105 篇文章 0 订阅

订阅专栏

行人属性

16 篇文章 2 订阅

订阅专栏

静态图像的行人行为识别，论文挖掘行为行为的上下文信息构建识别系统。
源代码： https://github.com/gkioxari/RstarCNN

在静态图像的行为识别中，人体的姿态，行人周围的物体，行人与物体的交互方式和场景都是重要的线索。论文使用RCNN，提取不止一个区域进行预测，即R*CNN。R*CNN有一个包含人体的首要区域，还有一个次要区域包含上下文线索。

如何选择次要区域呢，由多实例学习（MIL）和Latent SVM，给定图像I和人体区域r，行为 $\alpha$ 的得分为：
这里写图片描述
次要区域 $R(r;I)$ 可以是区域r的临近区域的集合，给定每个行为的得分，使用softmax计算区域r中行人的行为为 $\alpha$ 的概率为：

方法描述
1. 网络结构
对于输入图像I，选择人体的bbox作为首要区域，次要区域来自proposals。对每个行为 $\alpha$ ，选择包含信息次要区域，将其得分添加到首要区域（公式1），然后使用softmax操作将得分转换到估计的后验概率。网络的结构为：
这里写图片描述
2. 方法描述
基于Fast RCNN，FRCN的流程：一个自适应最大池化层将最后一个卷积层和一些列ROIs作为输入，输出每个ROI固定尺寸的特征图。之后将ROI-池话特征输入到全链接层作预测。
论文的方法：图像的首要区域预测一个得分，次要区域集中每个区域独立预测一个得分，通过max操作将这些得分综合到首要区域。次要区域 $R(r;I)$ 如下定义：
$R(r;I)={s\in S(I): overlap(s,r)\in [l,u]}$ 。
$S(I)$ 是proposals，使用Selective Search获得。重合率的上下边界定义了次要区域集合。
3. 训练
最小化预测的log损失：
这里写图片描述
对每个首要区域，在次要区域集合中随机选择N个区域