一个很强但是被忽略的方向！【零样本学习+多模态】GPT、Kimi、机器人交互都离不开它！

最新推荐文章于 2025-03-16 00:00:00 发布

程序猿李巡天

最新推荐文章于 2025-03-16 00:00:00 发布

阅读量951

点赞数 11

文章标签：学习 gpt 机器人人工智能音视频知识图谱面试

本文链接：https://blog.csdn.net/m0_59235945/article/details/141474780

版权

【零样本学习+多模态】研究方向探索了如何利用来自不同模态（如文本、图像等）的信息，以提高机器学习模型在未见过类别上的识别和生成能力。这种方法允许模型在没有直接训练数据的情况下，通过跨模态知识转移来理解和生成新的内容。它在提升机器对复杂场景的理解和响应能力方面具有重要意义，尤其是在数据稀缺或数据收集成本高昂的领域。此外，零样本多模态学习还推动了人工智能在更广泛实际应用中的可行性和有效性，如自动内容创作、跨语言翻译和机器人交互等。

①

Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis

方法：知识追求提示（Knowledge Pursuit Prompting, KPP）：提出了一个零样本（zero-shot）框架，该框架通过迭代地整合外部知识来帮助生成器产生可靠的视觉内容。

迭代知识查询：KPP使用递归的知识查询过程，从知识库中收集有助于生成任务的外部事实。
语言模型压缩：指导语言模型将获取的知识压缩，以便于提示细化。
多模态生成任务：KPP利用文本驱动的生成器进行视觉合成，支持图像、3D渲染和视频等多种视觉输出。
零样本学习：整个过程不需要访问生成模型的架构和参数，实现了无需训练的高质量视觉合成。
统一提示接口：作为一个插件式（plug-and-play）的框架，KPP可以适应多种文本驱动的生成模型。
动态和上下文相关的方式获取知识：查询的知识被添加到知识上下文中，用于下一次的知识查询迭代。

创新点：

· 无需大规模标注数据：KPP避免了通过大量标注的文本-图像对来微调生成器的常见做法，减少了人力和资源消耗。

· 利用外部知识库：与以往的方法不同，KPP从外部知识库中动态获取信息，而不是依赖于模型内部隐式存储的知识。

· 递归查询和上下文更新：KPP通过递归查询过程，不断更新知识上下文，使得每次查询都基于当前最相关的事实，提高了合成的准确性和丰富性。

· 语言模型的应用：KPP利用大型语言模型（LLMs）的能力，通过提供额外信息来辅助多模态合成，解决了LLMs本身可能产生的幻觉现象。

· 多模态和跨领域的适用性：KPP框架在不同领域的数据集上进行了评估，包括图像、3D渲染和视频合成任务，显示了其广泛的适用性。

· 模块化设计：KPP的模块化设计允许灵活选择生成模型、语言模型和上下文指令，提高了框架的通用性和可扩展性。

· 增强的提示生成：与传统的直接提示方法相比，KPP生成的提示更加详细、准确，并能够更好地捕捉到关键的视觉元素。

· 开放性和可复现性：论文承诺代码开源，提供了完整的实现细节和语言模型指令，确保了研究的开放性和可复现性。

②

Multimodal zero-shot learning for tactile texture recognition

方法：多模态零样本学习框架（Multimodal Zero-Shot Learning, ZSL）：提出了一个框架，用于在机器人首次接触时识别未知材料的触觉纹理，无需触觉训练样本。

生成模型：学习一个生成模型，根据相应的视觉图像和语义嵌入合成触觉特征。
分类器训练：使用合成的触觉特征训练一个分类器，用于零样本识别。
多模态输入融合：结合视觉模态提供触觉线索和语义属性给出高级特征，作为链接，使模型能够识别训练中未出现的类别。
特征提取模块：从视觉图像、触觉纹理和语义属性中提取高维特征。
编码器模块：将触觉特征和辅助信息映射到连续的潜在空间。
视觉-语义融合模块：强调视觉领域和语义领域中的特征，以便生成过程。
生成器模块：从潜在空间中采样，根据融合的特征重建触觉特征。
鉴别器模块：区分输入是合成的触觉特征还是真实的触觉特征。

创新点：

· 多模态数据集（FabricVST）：收集了一个新的数据集，包括视觉图像、语义属性和触觉数据，用于训练模型。

· 多模态特征合成：首次提出使用视觉信息和语义属性结合来合成触觉特征，用于机器人的零样本触觉识别。

· 联合生成模型：结合变分自编码器（VAE）和生成对抗网络（GAN），以提高生成触觉特征的清晰度和真实性。

· 视觉-语义融合功能：设计了一种融合函数，用于在不同模态之间强调相关特征，提高生成特征的质量。

· 零样本识别能力：即使在没有触觉样本的情况下，也能让机器人通过触觉感知识别未知材料。

· 高识别准确率：在分类未接触材料的任务中，实现了83.06%的高识别准确率。

· 多模态输入的比较研究：展示了多模态输入相比单一模态输入在零样本学习中的优势。

③

ZEROGEN: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles

**方法：**ZEROGEN：提出了一种新的零样本（zero-shot）可控文本生成范式，利用多模态信号（文本和图像）从词级到句子级逐步实现控制，并在解码阶段将这些控制映射到统一的概率空间中，通过加权组合定制语言模型（LM）输出，无需额外训练。

动态加权机制：引入了一种有效的动态加权机制来调节所有控制权重，以实现更好的跨模态权衡。
多模态控制：使用来自不同领域的输入（文本和视觉控制）来影响文本生成任务的不同粒度，通过与多个Oracle（如文本Oracle和多模态Oracle）的相似度来统一控制信号。
解码过程：在解码步骤中，ZEROGEN通过多个语言模型输出改变阶段，找到与文本控制和视觉控制都相关的词，然后将该词反馈给基础语言模型进行条件生成。
任务应用：ZEROGEN在图像描述、风格化描述和可控新闻生成等下游任务中进行了实验，探索了文本和视觉控制的垂直或水平扩展关系。

创新点：

· 多模态控制的零样本文本生成：ZEROGEN是首个在零样本设置下利用多模态引导实现可控文本生成的方法。

· 从词级到句子级的多模态引导：与传统的单模态引导不同，ZEROGEN结合了文本和图像的控制信号，提供了更为丰富和灵活的文本生成方式。

· 动态权重调节机制：提出了一种新的动态权重机制，能够根据生成过程中的需要动态调整控制信号的权重，增强了模型的适应性和生成质量。

· 无需特定任务训练：ZEROGEN能够在不进行特定任务训练的情况下，通过利用预训练的Oracle模型，实现在多种下游任务中的有效生成。

· 实验验证：通过在自动度量和人类评估中的实验结果，ZEROGEN在图像描述任务上取得了显著的性能提升，并在多模态新闻生成中展示了更高的控制度。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述