近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。
ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。
在开始动手做实验前,要先检查一下电脑上有没有装好Python和MindSpore这两个东西,没有的话得先装上。
接下来,我们要下载一组图片来用作实验的数据。你可以去 http://image-net.org 这个网站下载一个叫ImageNet的大图片包,不过咱们这次用的只是里面的一小部分图片。当你运行第一段代码的时候,程序会自动帮你下载和解压这些图片,所以你要确保你的图片放在正确的位置,按照下面的结构来放。
这样,我们就准备好了一切,可以开始动手做实验了!