视觉大模型应该长什么样

文章讨论了视觉领域缺乏一个类似ChatGPT的通用大模型,并提出了这样的模型应具备物体识别、图像描述、画面理解、生成和有状态生成等能力。通过抽象分层、prompt方式及自监督学习,可能实现各种视觉任务的统一模型。预计此类模型可能会在不久的将来出现。
摘要由CSDN通过智能技术生成

背景

最近朋友圈一直可以看到一个论调,视觉没有一个chatgpt一样强大的模型。似乎确实如此,视觉确实是缺一个通用能力的大模型;有些小伙伴可能就会讲了数据怎么能讲没有大模型:diffusion、della、muse、sam、controlnet一堆的大模型你要什么样功能的都有。然后这是这一对的不同功能的模型,而不是一个模型覆盖全视觉能力就说明了视觉确实缺一个和chatgpt一样的语言航母级别模型。

那么如果真要造这么个视觉大模型,他应该具备什么样的能力点呢。参照LLM模型个人觉得应该这个视觉模型也是要把历史上存在的各种专用模型能力全部具备,并且有在往上的两到三层的综合能力才算。也就是这个视觉模型必须具备:

1.物体识别能力:object detector、segment

2.画面描述能力:image caption

3.画面理解能力:VQA、

4.生成能力:生成能力、图片改写能力、图片多样化能力

5.有状态生成能力:图片续生成

如果说要具备上面所有这些能力的视觉大模型,市面上确实是不存在的。但是上面的技术点的专用模型和数据集其实是有不少积累的。那么有没可能像gpt系列模型一样用一个模型把所有的能力收到一个模型里面来呢。

个人觉得是有可能的,gpt之所以能把所有能力收到一个模型,原因有四:

1.把能力做了抽象分层,每层能力通过不同训练方式激活

2.通过prompt方式把所有问题统一到一个上下文的前向生成任务

3.找到一种自监督方式让模型可以提高整体能力

4.在下游任务端,可以通过prompt方式把各种任务,统一在:条件、上下文、生成要求下生成这样统一框架

那么对比gpt,视觉大模型是否也具备把各种能力收口到统一的模型条件,个人觉得是具备的:

1.一样可以做分层:感知理解能力层,根据任务自动适配能力搭配层、适配人类需求的精细调整层

2.把图片当成和图一样的信息输入(无非就是多一些结构信息),通过prompt方式把各种能力收口,输出就是图片的信息组,装成带prompt的生成方式

3.一样可以通过图文、图图、文图抽象成信息,通过自监督方式提高各种能力

4.下游任务也是通过prompt方式把各种任务,来适配到应用

技术点

这部分会给大家介绍下现在模型需要具备的能力,一些论文的做法:

增删改:通过text的方式,来对图里面需要改增删改的地方做修改,这其实是有序列的,需要对输入的图和修改指令做增量预测。

根据输入的图片和控制条件,生成同一角色不同姿势。

通过文字方式控制下一帧动画的增量变化。

模型结构可以如下,只要增加一个上一帧图片作为输入,文本可以通过session方式来写动作变化。训练数据可以来源于:二维动画的作画、每一帧增量变化的动作画面、动作描述语言。

小结

1.从现在视觉模型,结合chatgopt的能力发现现在视模型,缺少一个和chatgpt类似的通用大模型

2.现在的视觉生成模型框架有望把各种视觉能力汇总到一个框架,发展出类似chatgpt的通用大模型

3.展望了通用视觉通用大模型需要具备什么能力

4.展望如何通过生成视觉模型框架来统一各种能力,数据和任务搞如何设置

5.对现在通用大模型能力,特别是有状态的增删改能力做了些论文小结

个人预测真正有通用能力的视觉大模型应该离我们不远了,最快明年年初应该就会出来一个类似模型。试想一下如果模型具备通过文本方式生成图、可以同一个模型用文本方式来做内容增上改,可以通过文本方式来实现内容续生成(也就是可以生成下一帧画面),可以感知画面结构通过文本方式来改变布局。如此可见现在的视觉生成大模型还只是一个专用模型,并非通用大模型。真正视觉大模型出来应该是需要具备有状态的,那么对内容的创作会有质和量的飞跃。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
模型,特别是深度学习的大规模预训练模型,其“智能”主要是通过大量的数据和复杂的算法结构来获得。这里的关键步骤可以概括为以下几个方面: ### 1. 数据集的准备 大模型通常需要处理大规模的数据集作为训练的基础。这些数据集包含了大量的输入(如图像、文本等)及其对应的标签或上下文信息。数据集的选择和质量对于模型的学习至关重要。 ### 2. 算法设计 现代大模型往往采用深度神经网络架构,包括但不限于Transformer、ResNet、BERT等。这些网络能够自动从原始数据中学习到多层次的特征表示。例如,Transformer模型通过自注意力机制来捕捉序列数据之间的距离依赖关系;BERT则是在无监督预训练的基础上进行了微调,使得模型能够理解更复杂和多样化的语言结构。 ### 3. 训练过程 大模型的训练涉及优化损失函数的过程,旨在最小化模型预测结果与实际结果之间的差距。为了应对海量参数带来的计算挑战,研究人员引入了并行计算、分布式训练系统以及高效的优化策略,比如Adam、SGD等。此外,正则化技术也被广泛使用,以防止过拟合现象的发生。 ### 4. 微调与应用 训练完成后,大模型通常还需要针对特定任务进行微调。这意味着用少量的额外数据对模型进行调整,使其适应特定任务的需求。这一步骤可以显著提高模型在特定领域内的性能。 ### 相关问题 - 深度学习模型的局限性是什么? 1. 对于一些非结构化或高度复杂的任务,如视觉推理、因果关系判断,深度学习模型可能不如人类表现得那么好。 2. 模型解释性和透明度的问题仍然存在,这限制了它们在某些敏感领域的应用。 3. 需要大量的计算资源和时间来进行训练,尤其是处理超大规模数据集的时候。 4. 存在隐私风险和数据偏见问题,因为模型的性能很大程度上取决于所使用的数据集质量和多样性。 大模型虽然展现了强大的学习能力,但在理论基础、应用场景和伦理考量等方面仍面临着诸多挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值