自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【实验笔记】Kaggle房价预测经验总结

1.自己写的时候优化器用的是SGD,损失函数用的是均方误差,没有使用log_rmse,训练模型100个epoch,进行lr学习率调参,结果误差就一直过大,稍微将学习率调大一点loss就变成了nan,不知道哪里出了问题。但使用Adam优化器和log_rmse作为损失后,loss就变得正常。2.在def train()函数中有一个语句,之前写的是,运行的时候一直报错:这是因为函数内部对变量赋值进行修改后,该变量就会被Python解释器认为是局部变量而非全局变量。

2023-10-08 21:19:26 530 1

原创 【论文笔记】Swin Transformer

Swin Transformer是一种用来做图像预测任务的一种网络结构,它使用了NLP领域火爆的框架Transformer,在Transformer的结构上进行改进,通过一系列实验证明了Transformer结构也可以很好的用于视觉领域,与ViT不同的是:虽然ViT也使用了Transformer结构来处理视觉领域的任务,但在ViT的文章里,作者只说明了它可以用于分类任务;

2023-08-30 21:45:51 155 1

原创 【论文笔记】Video Vision Transformer(ViViT)

ViViT是一个视频分类模型,基于ViT模型进行了一些改进。ViT只用于2D图像的分类识别,视频与图像的区别是,视频引入了时间维度,因此ViViT模型在识别视频的时候也引入了时间维度,提出了tublet embedding来划分patches;3D滤波器的另一种生成方式;引入了时间维度的4种变体Attention模型,在各个数据集上的精确度都表现优秀:改进点:1.提出了一种"Tubelet embedding "方法划分patches。

2023-08-30 15:05:30 2138 1

原创 【论文笔记】TimeSformer

Attention (T+S)注意力机制,先计算只有time变量的时间自注意力分数,再计算只有space变量的空间自注意力分数。TimeSformer是一种用于处理视频分类的模型,它在ViT模型的基础上提出了Divided Space-Time。代码:: https://github.com/facebookresearch/TimeSformer.该论文提出的这种方式相比于原ViT模型,速度更快,精度更高,推理成本更低。1.输入片段:F个RGB帧组成的片段作为输入。2.拆分patches:每一帧分成。

2023-08-17 21:14:32 562

原创 VideoMAE模型复现(Linux)

VideoMAE是一个大模型,作者在里面用到了deepspeed分布式训练模块,我的pytorch是1.13.0+cuda11.7版,运行代码时报错说:No module named ’torch._six‘,原因是高版本的pytorch中没有_six模块;看了github上的运行环境,支持1.8.0和1.6.0版本的pytorch。

2023-08-07 11:03:58 1220 11

原创 论文研读:ICCV2023_CV视频基础模型

一.简介二.中文解读地址:https://zhuanlan.zhihu.com/p/618221217?utm_id=0三.原文地址:[2303.16058] Unmasked Teacher: Towards Training-Efficient Video Foundation Models (arxiv.org)四.已公开的部分代码:https://github.com/OpenGVLab/unmasked_teacher五.研读笔记

2023-07-18 11:52:49 121 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除