Temporal Convolutional Networks for Action Segmentation and Detection论文阅读笔记

Hia_Hia_Hia

于 2018-10-11 16:35:42 发布

阅读量3.4k

点赞数 1

分类专栏：论文学习文章标签：论文学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hia_Hia_Hia/article/details/83014688

版权

IEEE, 2016

现有的动作识别问题基本分为三种，（1）用滑动窗口来检测动作（2）用分段模型将视频分为多段再识别每段的动作（3）循环模型。（1）没有捕捉长范围的时序信息（2）没有考虑段间关系（3）关注范围有限且难以训练。

由此，作者提出了两种TCN模型：

（1）ED-TCN：使用编码解码结构，只用了卷积、池化和上采样，但能够有效捕捉长范围的时序信息，并且层数相对较少，但每层包含一组长卷积核。

（2）Dilated TCN：不使用池化和上采样，而使用空洞卷积，并在层间加入skip connection。这个模型是对WaveNet的改进，与ED-TCN也有相同点，但这个模型是为语音处理问题设计的。Dilated TCN的层数更多，但每层的空洞卷积的时间步很小。

两种TCN结构都能捕捉分段模型的特征，如动作持续时间，片段之间的转换和类似于循环模型的长范围的时序信息。两种TCN结构的特性有：

（1）计算是按层执行的，每个时间步同时更新，而不是按帧顺序更新；

（2）卷积是随着时间计算的；

（3）每帧的预测是固定长度的时间（被称为感受野）的函数

TCN的输入是一组视频特征（如CNN的输出）

ED-TCN结构：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。