今年是2024年1月,博主在2023年1月的时候关注大模型方向,因为一篇GPT3.5的多模态论文。才开始关注大模型在视觉市场的应用前景,近一年时间分别读了Bert,VIT,Transformer 等基础模型论文。如果博主后面的表述出现大家不了解的地方,可以去读相关论文和资料。
2023年7月份,开始读取基础多模态模型CLIP的论文和代码。这个项目虽然没有GPT模型那么有影响力,但是博主被这种思路震惊到了。因为CLIP的思路打开了工业视觉新的思路。这里我做一个简单的表述:
就拿视觉行业常见的方法分类来说,在做CNN网络分类的时候,我们会对每个图片进行打标签,便签最后会变成特征值,使用神经网络进行图片和特征值之间的拟合回归,生产最优的特征网络解。
CLIP的开辟了一个新的方法,对图片和复杂标签进行特征融合,如下图:
图片数据进行VIT模型方式Token化特征提取,图片的文字表述进行Transformer方式Token特征提取。两种方式结合在一起获得了一组既有图片特征和文字表述特征的数据Token。在通过深度学习进行拟合回归对数据的进行拟合,获取这个图片的准确表述文本(BATCH_SIZE>4)。这种方式已经完全碾压CNN网络强的模型Resnet,论文链接:https://zhuanlan.zhihu.com/p/521151393
数据和论证上真正意义上已经完全超越之前的网络结构。那么在工业视觉领域怎么利用?
在工业视觉领域有一个大的痛点,就是视觉产品的兼容性和更加具体的文字表述性,简单点表述就是我一套算法怎么兼容多个产品的检测和分类,还有对特征不具体,复杂的工作环境下怎么进行具体的数值和产品尺寸的描述。都提供了一种新的思路。
之前的CNN网络只能对多个标签描述进行分类,分割和检测。CLIP可以采用更多的文字表述和细节表述,对图片和文字进行监督性的学习,适应在复杂和多产品的产线进行文字表述,分类,分割等工作。
市场需求:在多产品种类的现场进行智能切换产品进行分类和检测。在复杂的影像环境下对数据进行高精度测量和更多细节的表述。