介绍
多模态机器学习正在彻底改变人工智能系统的功能。通过理解图像、音频、视频和文本等不同的模态,这些系统可以解决以前机器难以解决的问题。让我们来探索这一领域的一个令人兴奋的发展——多模态检索增强生成(MM-RAG)——以及如何利用向量数据库构建由多模态嵌入支持的实用应用程序,实现任意到任意的搜索和检索。
我们将从解释对比学习开始,这是一种训练高质量多模态嵌入的技术。然后,我们将讨论这些嵌入如何赋予跨模态的任意到任意搜索的能力。接下来,我们将深入探讨MM-RAG,看看如何通过检索相关的多模态上下文来显著改善文本生成。最后,我们将研究如何利用向量数据库使这些技术在大规模部署成为可能。
让我们开始吧!
对比学习用于多模态表示对比学习已经成为训练多模态机器学习模型的一种强大方法。关键洞察是我们可以利用跨模态的相似和不相似的对比示例来教导模型有用的多模态表示。
例如,我们可以通过向模型展示匹配的图片-字幕对作为正例,以及不匹配的对作为负例来训练一个图像-文本模型。通过将正例的嵌入拉近,同时分离负例的嵌入,模型学会了文本和视觉概念之间的对应关系。
像CLIP(对比语言-图像预训练)这样的技术已经使用这种方法取得了很好的效果。作者在从互联网上收集的4亿个图片-字幕对上训练了一个图像-文本模型,得到了一个极其强大的多模态嵌入模型。
同样的原则也适用于其他模态组合。例如,语音到文本模型可以使用匹配的音频波形-转录对作为正例进行训练。视频-文本模型可以使用成对的视频剪辑和描述。对比学习甚至适用于单模态场景,如学习文本到文本的表示。
有效对比学习的关键要素包括:
1、大量配对示例,用于对齐跨模态的概念
2、适当的对比损失函数,用于比较正例和负例
3、足够的模型容量来学习高质量的联合表示如果做得正确,对比学习可以得到跨模态的语义概念聚类编码。这实现了强大的跨模态搜索和检索功能。
使用多模态嵌入进行任意到任意搜索多模态机器学习解锁了一个令人兴奋的功能——跨模态的任意到任意搜索。通过高质量的联合嵌入,我们可以找到不同格式的相关内容——检索与文本查询匹配的图片,找到与视频中相同概念重叠的音频剪辑等。
这是通过将所有数据点——图片、音频、视频、文本文档——编码到相同的语义嵌入空间中来实现的。在嵌入空间中距离较近的项目捕捉相似的概念,而距离较远的项目则更为独特。
要实现任意到任意搜索,我们只需将查询编码到共享空间中,然后基于嵌入相似性在整个数据库中检索最近的邻居。这样无论查询和结果是图片、文本、音频还是视频,都能呈现出相关的匹配项!
例如,让我们来梳理一个图片到文本搜索的场景:
1、将图片数据库编码到多模态嵌入空间中用户提供一张海滩的查询图片
2、将查询图片编码到相同的嵌入空间中检索与查询图片嵌入最接近的文本文档
3、返回关于海滩、海洋、沙滩、波浪、日落等相关结果
4、同样的方法适用于其他任何模态的查询和被搜索的数据库。
5、我们可以从文本到音频、视频到图片、音频到视频以及所有其他组合进行搜索。
对比学习表示使得这一切成为可能——将语义概念紧密地聚集在一起,而不考虑模态。这为极其灵活、强大的多模态搜索和发现铺平了道路。
MM-RAG:使用多模态检索增强生成多模态嵌入已经使得模型能够理解图片、文本、音频、视频等之间的关系。研究人员现在正在探索如何应用这种先进的表示学习来改进语言生成模型。
一种获得关注的技术是多模态检索增强生成(MM-RAG)。简而言之,关键思想是将像GPT-3这样的语言模型与使用对比学习嵌入的多模态检索器结合起来。
在文本生成过程中,模型检索相关的图片、音频和文本示例来指导其完成。这使输出基于额外的上下文,提高了相关性和准确性。
Anthropic使用这种方法的早期结果令人难以置信。在像想象海滩上的一天这样困难的任务中,使用图片检索增强的模型产生的输出更加连贯、有根据且具体:
未使用MM-RAG生成的内容:我想象海滩上的一天会非常放松。我会坐在太阳下,听着波浪拍打岸边的声音。也许我会去游泳或者堆一个沙堡。能够暂时远离日常生活,享受宁静的氛围会很不错。
**
**
使用MM-RAG生成的内容:
我想象海滩上的一天充满了金色的沙滩和明亮的蓝色波浪有节奏地轻轻拍打着海岸线。我的脚趾会沉入细软的沙子里,我在明亮的天空下呼吸着新鲜而咸味的海风,天空中点缀着蓬松的云朵。我很想去浮潜,瞥见下面五彩缤纷的鱼儿游动,或者只是躺在毛巾上小憩,被闪闪发光的水面和头顶盘旋尖叫的海鸥哄睡。也许稍后我可以打开一个椰子,或者在日落前建造一个带有桥梁和护城河的精致沙堡,观看那发光的橙色圆盘沉入地平线下。
得益于与相关图像的基础结合,MM-RAG示例传达了更多的具体性和风采。研究人员在从摘要到对话建模等许多类型的生成任务中发现了类似的益处。
这种方法为将语言AI提升到一个新的水平带来了难以置信的希望。但我们需要可扩展的方式在生产系统中提供多模态检索和基础模型。接下来,让我们探索向量数据库如何使这成为可能。
使用向量数据库构建多模态生产系统我们探讨的技术提供了改变游戏规则的能力——跨模态搜索和检索、基于MM-RAG的接地语言生成等。但在生产中大规模部署这些系统面临着效率、成本、基础设施复杂性等方面的挑战。
这就是像Weaviate这样专门构建的向量数据库发挥作用的地方。通过高效地索引和搜索向量空间,这些数据库解锁了对比学习模型和神经表示模型的用户规模部署。
例如,为了实现超快的多模态搜索和检索,我们可以使用以下堆栈:
1、像CLIP这样的对比训练多模态模型将数据点(如图片、文本、音频等)编码到共享的向量空间中
2、像Weaviate这样的向量数据库摄取这些嵌入即使有数十亿的嵌入,数据库也能执行高效的向量相似性搜索
3、用户查询向量数据库,即时检索跨模态的相关结果
4、借助专为向量空间量身定制的特殊数据结构和算法,这一堆栈即使处理大量数据也能提供极快的多模态搜索。
我们可以使用相同的基础来构建大规模的MM-RAG生产系统:
1、摄取大型基础语言模型
2、允许模型与存储数十亿多模态嵌入的向量数据库进行交互
3、在生成过程中,高效检索相关信息以指导文本完成
4、向用户返回有根据的、相关的输出
5、通过反馈循环不断改进模型通过利用基础模型、对比表示学习和向量数据库的结合力量——这种系统将MM-RAG的承诺从研究转移到现实世界的实践。
多模态人工智能的未来这篇文章强调了像对比学习用于多模态表示、跨模态的任意到任意搜索,以及基于MM-RAG的接地生成等引人入胜的创新。这些技术共同扩展了人工智能能够感知、构思和实现的范围。
随着方法的进一步成熟,我们将看到多模态人工智能变得更加普遍——从Meta这样的推荐系统理解用户的丰富兴趣,到像GPT-4和其他虚拟助手更准确地回答问题。媒体和电子商务将允许通过任意到任意搜索对目录进行细粒度探索。生成性应用将产生保持强连贯性和根据性的写作、图像、动画、合成和对话。
要实现这些未来,我们需要使多模态人工智能可扩展且可部署。专门构建的向量数据库解锁了这一关键步骤,在生产环境中启用了讨论过的令人难以置信的能力。
应用将产生保持强连贯性和根据性的写作、图像、动画、合成和对话。
要实现这些未来,我们需要使多模态人工智能可扩展且可部署。专门构建的向量数据库解锁了这一关键步骤,在生产环境中启用了讨论过的令人难以置信的能力。
我希望你喜欢这次穿越不断成长的多模态智能世界的旅行,并了解数据库是如何利用从对比学习到MM-RAG的技术为现实世界的应用提供动力!随着多模态和生成性人工智能继续快速发展,激动人心的时代即将到来。
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
1.学习路线图
如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
👉2.大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)
大模型教程
👉3.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)
电子书
👉4.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)
大模型面试
**因篇幅有限,仅展示部分资料,**有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
**或扫描下方二维码领取 **