action recognition论文阅读

最新推荐文章于 2024-04-23 20:09:14 发布

Janie.Wei

最新推荐文章于 2024-04-23 20:09:14 发布

阅读量328

点赞数

分类专栏：深度学习文章标签：动作识别深度学习论文

本文链接：https://blog.csdn.net/weijie_home/article/details/104929231

版权

深度学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.Potion

步骤：

（1）抓取每一帧每个joint的heatmaps（每一个像素点被划分为某一个joint概率的heatmap）

--》每一帧图像都得到N个heatmap(H*W), 共 T*N*H*W

（2）对每一帧每个joint的heatmaps按照时间顺序进行colorizing，可以多个通道

--》每个heatmaps*Oi(t)，然后所有时刻相加，共N*C*H*W

C=2：通道一O1(t), 通道二O2(t). C=3：通道一O1(t), 通道二O2(t)，通道三O3(t).

   C>2: 将T帧的视频分为C-1个片段，第一个片段对前两个channel使用前述的colorization方法，其余channel=0；接着在第二个片段，对第二个和第三个channel使用同样的方式，其余channel=0；以此类推。
（3）   CNN训练，输入数据为N个joint在通道上堆叠

--》共（N*C）* H * W

举例：

2.Two-stream文章

步骤：

（1） RGB图像+spatial CNN （resnet）

（2） Option flow + motion CNN

（3）融合

问题：

（1） option flow获取数据耗时长，数据量大

光流数据获取：

1）利用OpenCV直接获取

2）利用flownet网络获取，其中flownet2效果最好

输入图片大小（h=384,w=512），输出（384,512,2）

3. STNet

步骤：

（1） super-image：n个连续的视频帧叠加成一个具有3N个通道的image

输入的视频中采样T个时序段，每个时序段包括N张连续的RGB帧，N张图片在通道上进行堆叠形成super-image为：T*3N*H*W。Super-Image中不仅仅包含单帧局部空间信息，而且也包含局部连续视频帧之间时序依赖信息。
（2）对super-image进行二维卷积以获取局部的时空关系

（3） Temporal Modeling Block：通过三维卷积以获取全局的时空特征

经过2D卷积的作用，得到T个局部时空特征图，通过这T个时空特征图建立全局的时空特征图对于理解视频是至关重要的，因此通过3D卷积实现(Conv3d-BN3d-ReLU)。为了节省计算量，3D卷积空间核size为1，时序kernel size为3。
（4） Temporal Xception Block：实现特征序列之间高效的时间建模

输入的size为T*Cin，是对T个super-imags的feature map 进行全局均值池化所得到。为了建立时间关系，在时间维上进行卷积，作者将时间卷积分解为基于逐通道和逐时序的一维卷积。基于逐通道channel-wise的一维卷积，时序核大小设置为3，卷积核的数目和group设置为与输入通道数目相同。基于逐时序temporal-wise的一维卷积，时序核大小为1，group为1。

实例： 1D卷积配置（＃kernel，kernel size，padding，＃groups）

4. I3D: Inflated 3D ConvNets

1）拓展2D卷积网到3D: 将2D转化为3D

2）将2D滤波器变为3D: 除了结构，还想提取预训练参数。视频可以通过复制图片序列得到，且视频上的pooling激活值应该与单张图片相同。由于是线性的，可以将2D滤波器沿着时间维度重复N次。这保证了相应的相同。由于图片组成的视频卷积层在时间上输出是恒定的，因此点状非线性层和average层和max pooling层和2D的一致。
3）空间、时间和网络深度接收增长: 图片中空间域自然的将x，y同等对待，在时间域上却没必要这样，（时间域上的pooling核选取有不同），这取决于帧率和图片维度之间的关系，如果相比空间域，时间域增长太快，可能破坏早期的特征检测，如果时间上增长的过慢，可能难以捕捉场景动态信息。

Janie.Wei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
action recognition论文阅读

1.Potion步骤：（1）抓取每一帧每个joint的heatmaps（每一个像素点被划分为某一个joint概率的heatmap） --》每一帧图像都得到N个heatmap(H*W), 共 T*N*H*W（2）对每一帧每个joint的heatmaps按照时间顺序进行colorizing，可以多个通道 --》每个he...
复制链接

扫一扫