1.总述
简单讲一下最近google公司提出的CoCa算法,CoCa算法实现数据集的分类任务,CoCa算法不是简单的一个仅仅针对于图片进行处理的分类网络,而是结合了文本信息,目前在ImageNet分类任务中达到了SOTA的效果,正确率目前是91%
代码的GitHub链接 CoCa-pytorch/setup.py at main · lucidrains/CoCa-pytorch · GitHub
2.思路
该算法在前向传播的过程中主要分为三部分
第一部分是对文本信息的前向传播,对于文本的前向传播采用的是attention操作,并且在代码中通过ParalleTransformerBlock类实现封装
第二部分是对图像信息的前向传播,图像的前向传播分为两个步骤,一个是图像的特征提取,一个是对于图像的交互,从而更好得到和后面的