《计算机视觉度量:从特征描述到深度学习》-- 多模态特征融合(CLIP)<文字表述和图数据融合分类>

本文介绍了作者在2023年关注大模型并深入研究CLIP技术的过程。CLIP通过结合图片和文字特征的Token化处理,超越传统CNN模型,为工业视觉领域的兼容性和详细表述问题提供了创新解决方案。该技术有望在多产品检测、分类和复杂环境下的高精度测量中发挥作用。
摘要由CSDN通过智能技术生成

今年是2024年1月,博主在2023年1月的时候关注大模型方向,因为一篇GPT3.5的多模态论文。才开始关注大模型在视觉市场的应用前景,近一年时间分别读了Bert,VIT,Transformer 等基础模型论文。如果博主后面的表述出现大家不了解的地方,可以去读相关论文和资料。

2023年7月份,开始读取基础多模态模型CLIP的论文和代码。这个项目虽然没有GPT模型那么有影响力,但是博主被这种思路震惊到了。因为CLIP的思路打开了工业视觉新的思路。这里我做一个简单的表述:

        就拿视觉行业常见的方法分类来说,在做CNN网络分类的时候,我们会对每个图片进行打标签,便签最后会变成特征值,使用神经网络进行图片和特征值之间的拟合回归,生产最优的特征网络解。

       CLIP的开辟了一个新的方法,对图片和复杂标签进行特征融合,如下图:

图片数据进行VIT模型方式Token化特征提取,图片的文字表述进行Transformer方式Token特征提取。两种方式结合在一起获得了一组既有图片特征和文字表述特征的数据Token。在通过深度学习进行拟合回归对数据的进行拟合,获取这个图片的准确表述文本(BATCH_SIZE>4)。这种方式已经完全碾压CNN网络强的模型Resnet,论文链接:https://zhuanlan.zhihu.com/p/521151393

数据和论证上真正意义上已经完全超越之前的网络结构。那么在工业视觉领域怎么利用?

在工业视觉领域有一个大的痛点,就是视觉产品的兼容性和更加具体的文字表述性,简单点表述就是我一套算法怎么兼容多个产品的检测和分类,还有对特征不具体,复杂的工作环境下怎么进行具体的数值和产品尺寸的描述。都提供了一种新的思路。

之前的CNN网络只能对多个标签描述进行分类,分割和检测。CLIP可以采用更多的文字表述和细节表述,对图片和文字进行监督性的学习,适应在复杂和多产品的产线进行文字表述,分类,分割等工作。

市场需求:在多产品种类的现场进行智能切换产品进行分类和检测。在复杂的影像环境下对数据进行高精度测量和更多细节的表述。

项目链接:GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值