视频行为识别论文阅读[3]

最新推荐文章于 2024-04-03 15:05:00 发布

张叫张大卫

最新推荐文章于 2024-04-03 15:05:00 发布

阅读量2.2k

点赞数 3

分类专栏：行为识别论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40100431/article/details/82555629

版权

这篇博客探讨了几篇关于视频行为识别的论文，包括TSN的改进、时序关系推理、I3D模型、3D卷积网络以及端到端的视频表示学习。论文涉及新数据集Kinetics、不同的融合策略、3D卷积结构和时序线性编码层，旨在提高动作识别的准确性和推理能力。

摘要由CSDN通过智能技术生成

[3]Deep Local Video Feature for Action Recognition[CVPR2017]

这篇文章是TSN网络的一种改进，其首先使用TSN提取局部特征，并探索了从网络的那一层提取特征比较合适，实验结果表明在最后一个卷积层提取特征具有更好的效果，作者认为有三个原因：（1）卷积层相对于全连接层有更少的参数，具有更少的过拟合风险（2）全连接层没有保存空间信息（3）后期的卷积层解码了更多的全局（空间）信息。
第二部分网络作者探索了集中不同的融合策略，例如，Mean，Max、Mean_std、BoW、FV、VLAD等方法，最终选择的是Max作为融合策略。相对于原始算法，大约具有1.3%的提升。

[4]Temporal Relational Reasoning in Videos[2017]

这篇文章给出了一种观点：认为人具有推理功能（即给出不连续的两帧图片，人能够猜测出中间发生了什么），而UCF101、SPort1M、THUMOS数据集以及依靠这些数据集的双流法和I3D等并不具备这种推理功能。这些数据集仅仅动作具有重复性，对时间的依赖性比较低。因此，作者使用了Something-Something，Jester，Charades三种数据集，首先确定固定的帧长度，然后对间隔采集两帧，间隔采样三帧，五帧进行训练测试，最后进行平均。

最低0.47元/天解锁文章

张叫张大卫

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。