Vit是使用Transformer架构来解决图片识别的问题。
通过将大图片切割成一块块小图片并使用类似词向量的处理方式可以更好的提取每个小图片的信息,不需要卷积操作因此提高了模型的计算效率,可以通过大图片数据集来进行模型预训练提升准确率。
昇思大模型平台学习第十五天
最新推荐文章于 2024-10-06 20:54:02 发布
Vit是使用Transformer架构来解决图片识别的问题。
通过将大图片切割成一块块小图片并使用类似词向量的处理方式可以更好的提取每个小图片的信息,不需要卷积操作因此提高了模型的计算效率,可以通过大图片数据集来进行模型预训练提升准确率。