Large Scale Holistic Video Understanding | 论文阅读

最新推荐文章于 2024-05-14 12:37:10 发布

牙缝

最新推荐文章于 2024-05-14 12:37:10 发布

阅读量701

点赞数

分类专栏：论文阅读文章标签：计算机视觉视频处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013519537/article/details/106296968

版权

目录

Large Scale Holistic Video Understanding

Large Scale Holistic Video Understanding

链接	PDF DataSet
作者	Ali Diba¹
期刊	CVPR 2019
领域	Video recognition
输入	RGB vide
方法	2D/3D ConvNet ; Multitask Learning

本文为论文的阅读笔记，内容精简，帮助快速理解论文，若有错误望指正！

1、摘要

视频识别

目前其他研究局限于人类行为或运动识别-专注于高度特定的视频理解任务

整体视频理解数据集(HVU)

通过语义分类将多标签和多任务视频理解作为包含动态场景中多个语义方面的识别的综合问题来关注

整体外观和时间网络(HATNet)

采用时空深度神经网络结构
通过组合外观和时间的中间表示，将2D和3D架构融合为一个整体
专注于多标签、多任务的学习

2、引言

视频识别

涉及场景或环境、对象、动作、事件、属性和概念
目前研究大多数局限于动作识别

ConvNet的缺点

（单任务时）不足以描述整个视频的内容
阻碍ConvNet学习通用特征表示

HVU

提供具有用于视频分析和理解的任务和注释的全面列表的多标签和多任务大规模视频基准
282个场景类别、1917个对象类别、882个动作类别、77个事件类别、106个属性类别和193个概念类别

HATNet

专注于多标签和多任务学习，用多个方面的语义识别于同时解决多个时空问题
通过组合外观和时间信息的中间表示，将2D和3D架构融合为一个整体，产生健壮的时空表示
在HMDB51、UCF101和Kinetics数据集上取得了出色的结果

3、相关研究

基于ConvNets的动作识别

2D(单个图像级别)
3D(K帧的视频剪辑或片断)
- 网络架构的过滤器和汇集内核是3D(x, y, time)，即3D卷积(s, s, d)，其中d是内核的时间深度，s是内核的空间大小
卷积核
- 基于初始化的 I3D
- 模拟可变的时间

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
Large Scale Holistic Video Understanding | 论文阅读

基于多任务学习的视频识别，提出HVU数据集和HATNet网络。（CVPR 2019论文阅读）
复制链接

扫一扫

专栏目录

牙缝 CSDN认证博客专家 CSDN认证企业博客

码龄10年

3: 原创

45万+: 周排名

91万+: 总排名

3819: 访问

: 等级

76: 积分

3: 粉丝

4: 获赞

3: 评论

15: 收藏

私信

关注

分类专栏

论文阅读 2篇
第三方包安装 1篇

最新评论

Large Scale Holistic Video Understanding | 论文阅读
LgrandStar: 我看到他论文里写的will release 晕了，他的意思是以后会放出来源码但是都一年了，估计是发完论文就不想放了(((φ(◎ロ◎;)φ)))
Large Scale Holistic Video Understanding | 论文阅读
牙缝: 我也是只找到了数据集
Large Scale Holistic Video Understanding | 论文阅读
LgrandStar: 博主，这论文代码开源了吗，我去git上只能找到他们的数据集呢，但是paper里说开源了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。