NeXt VLAD多模态视频分类

最新推荐文章于 2024-04-20 22:54:43 发布

小李飞刀李寻欢

最新推荐文章于 2024-04-20 22:54:43 发布

阅读量5k

点赞数 3

分类专栏： imagednn 文章标签：视频分类多模态

原文链接：https://arxiv.org/abs/1811.05014

版权

imagednn 专栏收录该内容

61 篇文章 5 订阅

订阅专栏

NetVLAD最初是用于位置识别中聚合空间表达，发现比常规的时间模型（LSTM/GRU）用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高，基于这种特征的大的分类模型需要几百百万的参数。例如，一个Net VLAD网络有128个聚类，特征2048维，那么作为向量就是262144维。后面的全连接层是2048维度的输出，那么将有537M的参数。这种低效的参数将使得模型很难优化，且容易过拟合。

为了解决上述问题，受ResNeXt启发，开发了新的网络结构NeXt VLAD。与NetVLAD不同的是，输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标，在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快，且能阻止过拟合。

下面是NeXt VLAD结构图：

输入xi向量先经过线性FC全连接层扩展成λN维度，λ设定为2，波浪表示reshape操作，从(M,λN)到(M,G,λN/G)

其中的G是群组数。

[具体做法可以参考阿里优酷的做法]

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像视频深度-学习群

小李飞刀李寻欢

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
NeXt VLAD多模态视频分类

NetVLAD最初是用于位置识别中聚合空间表达，发现比常规的时间模型（LSTM/GRU）用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高，基于这种特征的大的分类模型需要几百百万的参数。例如，一个Net VLAD网络有128个聚类，特征2048维，那么作为向量就是262144维。后面的全连接层是2048维度的输出，那么将有537M的参数。这种低效的参数将使得模型很难...
复制链接

扫一扫

专栏目录

小李飞刀李寻欢 CSDN认证博客专家 CSDN认证企业博客

码龄7年

652: 原创

2966: 周排名

1423: 总排名

98万+: 访问

: 等级

1万+: 积分

1万+: 粉丝

1650: 获赞

491: 评论

869: 收藏

私信

关注

热门文章

分类专栏

NLP与推荐算法付费 138篇
Notebook 付费 107篇
python 付费 209篇
LeetCode 23篇
imagednn 61篇
Android Studio 9篇
java 39篇
speechdnn 49篇

最新评论

No module named ‘pytorch_lightning.utilities.distributed‘
彼海姆的泥浆: 多谢，解决了
shell将文件分割成小块文件
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
shell查找某个文件
小李飞刀李寻欢: -type d 查找文件夹
小度二次开发中的java流式数据请求及返回
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
小度大模型对接实现即小度二次开发接口对接
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。