VIT基础概述

最新推荐文章于 2024-01-02 10:54:40 发布

看不见我呀

最新推荐文章于 2024-01-02 10:54:40 发布

阅读量3.6k

点赞数

分类专栏：基础算法文章标签： transformer 深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/124981948

版权

基础算法专栏收录该内容

36 篇文章 3 订阅

订阅专栏

四，VIT

概述

需要在的数据集上进行预训练。

Vit本质为 transformer encoder网络。

算法

Vit将图片划分为大小相同的patches，可以重叠划分，也可以不重叠划分。

每个patches都是RGB的图像，属于张量。

需要将张量拉伸为向量。

Fc对向量x进行线性变化，注意不采用relu，得到z，此处WB为参数，需要训练得到，并且所有patch共享参数。

Z不仅编码了内容表征，而且包含位置信息。如果不用位置信息，会掉点3%。

一定要用positon encoder，但是具体什么形式的position，影响不大。

如果不用位置编码，则上图左右的transformer的输出一样。这样不好。

因此需要进行编码。

如果patches变化顺序，则其位置编码也会变化。

训练

数据集A很大，如JFT数据集-3亿张图像；

数据集B相对小，如imagenet-130万张图像

评估

看不见我呀

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
VIT基础概述

四，VIT概述需要在的数据集上进行预训练。Vit本质为 transformer encoder网络。算法Vit将图片划分为大小相同的patches，可以重叠划分，也可以不重叠划分。每个patches都是RGB的图像，属于张量。需要将张量拉伸为向量。Fc对向量x进行线性变化，注意不采用relu，得到z，此处WB为参数，需要训练得到，并且所有patch共享参数。Z不仅编码了内容表征，而且包含位置信息。如果不用位置信息，会掉点3%。一定要
复制链接

扫一扫

专栏目录

看不见我呀

CSDN认证博客专家 CSDN认证企业博客

码龄11年

180: 原创

2万+: 周排名

135万+: 总排名

90万+: 访问

: 等级

7868: 积分

392: 粉丝

587: 获赞

76: 评论

3174: 收藏

私信

关注

热门文章

分类专栏

最新评论

caffe中makefile的设置
Jayne成长记: ./include/caffe/util/cudnn.hpp:5:10: fatal error: cudnn.h: 没有那个文件或目录 #include <cudnn.h> 你好，有解决这个问题的吗
cmake系列（五）
Tracy_小仙女: cmake系列总结的太棒了，但是cmake系列怎么没有(四)呢？
关节点检测-CPM
迪佛瑞斯: 你在逗我，输出怎么成了回归了
权重分布
lunar_carrot: 写的很好期待继续创作
VIT基础概述
蓝色兔子: 达摩院模型开源平台modelscope可以快速体验ViT日常物品分类模型: https://modelscope.cn/models/damo/cv_vit-base_image-classification_Dailylife-labels/summary, 效果还不错～

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。