双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

最新推荐文章于 2024-06-11 09:26:38 发布

code_Rocker

最新推荐文章于 2024-06-11 09:26:38 发布

阅读量1.2w

点赞数 3

分类专栏： Machine Learning ML papers reading 文章标签：网络行为识别 HMDB51 UCF101

本文链接：https://blog.csdn.net/u014381600/article/details/59117453

版权

Machine Learning 同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

ML papers reading

12 篇文章 0 订阅

订阅专栏

前几天刚放出来的一篇paper：Spatiotemporal Residual Networks for Video Action Recognition，又将HMDB51数据库和UCF101数据库的精度刷高了。
精度结果如下：
这里写图片描述

这比之前的tsn网络的结果还要好，之前tsn的结果是：Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
这里写图片描述
将结果分别都提高了不到1个百分点，可见基于video 的action recognition的确被做的比较好了。
接下来会写一篇关于tsn网络的博文，这里先讲最新的结果的Spatiotemporal Residual
Networks for Video Action Recognition：
原文代码还未更新，地址是：https://github.com/feichtenhofer/st-resnet
这篇文章使用的网络是何凯明大神的残差网络ResNet，网络结构如下
这里写图片描述
依然是使用了两个流，但是名字不是取为空间流和时间流，而是运动流（motion stream）和外观流（appearance stream），但是本质不变，运动流接收的输入依然是堆叠的多帧光流灰度图片，为什么是两幅，是因为光流计算后的结果分为x方向的光流和y方向的光流，真正计算的时候也是在同一位置取出x位置L=10帧做计算，y位置L=10做计算，而外观流和原来的空间流一致，接收的输入都是RGB图片，但是这里使用的双流的两个流之间是有数据交换的，而不是像TSN网络一样在最后的得分进行融合

code_Rocker

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
5
评论
双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

前几天刚放出来的一篇paper：Spatiotemporal Residual Networks for Video Action Recognition，又将HMDB51数据库和UCF101数据库的精度刷高了。精度结果如下：这比之前的tsn网络的结果还要好，之前tsn的结果是：Temporal Segment Networks: Towards Good Practices for
复制链接

扫一扫