论文研读
文章平均质量分 72
混混子儿
这个作者很懒,什么都没留下…
展开
-
【论文笔记】TimeSformer
Attention (T+S)注意力机制,先计算只有time变量的时间自注意力分数,再计算只有space变量的空间自注意力分数。TimeSformer是一种用于处理视频分类的模型,它在ViT模型的基础上提出了Divided Space-Time。代码:: https://github.com/facebookresearch/TimeSformer.该论文提出的这种方式相比于原ViT模型,速度更快,精度更高,推理成本更低。1.输入片段:F个RGB帧组成的片段作为输入。2.拆分patches:每一帧分成。原创 2023-08-17 21:14:32 · 719 阅读 · 0 评论 -
【论文笔记】Swin Transformer
Swin Transformer是一种用来做图像预测任务的一种网络结构,它使用了NLP领域火爆的框架Transformer,在Transformer的结构上进行改进,通过一系列实验证明了Transformer结构也可以很好的用于视觉领域,与ViT不同的是:虽然ViT也使用了Transformer结构来处理视觉领域的任务,但在ViT的文章里,作者只说明了它可以用于分类任务;原创 2023-08-30 21:45:51 · 196 阅读 · 1 评论 -
【论文笔记】Video Vision Transformer(ViViT)
ViViT是一个视频分类模型,基于ViT模型进行了一些改进。ViT只用于2D图像的分类识别,视频与图像的区别是,视频引入了时间维度,因此ViViT模型在识别视频的时候也引入了时间维度,提出了tublet embedding来划分patches;3D滤波器的另一种生成方式;引入了时间维度的4种变体Attention模型,在各个数据集上的精确度都表现优秀:改进点:1.提出了一种"Tubelet embedding "方法划分patches。原创 2023-08-30 15:05:30 · 3473 阅读 · 1 评论 -
VideoMAE模型复现(Linux)
VideoMAE是一个大模型,作者在里面用到了deepspeed分布式训练模块,我的pytorch是1.13.0+cuda11.7版,运行代码时报错说:No module named ’torch._six‘,原因是高版本的pytorch中没有_six模块;看了github上的运行环境,支持1.8.0和1.6.0版本的pytorch。原创 2023-08-07 11:03:58 · 1549 阅读 · 11 评论 -
论文研读:ICCV2023_CV视频基础模型
一.简介二.中文解读地址:https://zhuanlan.zhihu.com/p/618221217?utm_id=0三.原文地址:[2303.16058] Unmasked Teacher: Towards Training-Efficient Video Foundation Models (arxiv.org)四.已公开的部分代码:https://github.com/OpenGVLab/unmasked_teacher五.研读笔记原创 2023-07-18 11:52:49 · 168 阅读 · 1 评论