今年是2024年1月,博主在2023年1月的时候关注大模型方向,因为一篇GPT3.5的多模态论文。才开始关注大模型在视觉市场的应用前景,近一年时间分别读了Bert,VIT,Transformer 等基础模型论文。如果博主后面的表述出现大家不了解的地方,可以去读相关论文和资料。
2023年7月份,开始读取基础多模态模型CLIP的论文和代码。这个项目虽然没有GPT模型那么有影响力,但是博主被这种思路震惊到了。因为CLIP的思路打开了工业视觉新的思路。这里我做一个简单的表述:
就拿视觉行业常见的方法分类来说,在做CNN网络分类的时候,我们会对每个图片进行打标签,便签最后会变成特征值,使用神经网络进行图片和特征值之间的拟合回归,生产最优的特征网络解。
CLIP的开辟了一个新的方法,对图片和复杂标签进行特征融合,如下图:
图片数据进行VIT模型方式Token化特征提取,图片的文字表述进行Transformer方式Token特征提取。两种方式结合在一起获得了一组既有图片特征和文字表述特征的数据Token。在通过深度学习进行拟合回归对数据的进行拟合,获取这个图片的准确表述文本(BATCH_SIZE>4)。这种方式已经完全碾压CNN网络强的模型Resnet,论文链接:https://zhuanlan.zhihu.com/p/52