引言
随着人工智能技术的飞速发展,多模态技术逐渐成为研究的热点。它结合了文本、图像、声音等多种数据类型,为机器理解世界提供了更丰富的视角。本文根据严明老师的达摩院通义MPLUG多模态预训练技术分享,及其在电商等行业的应用实践,对多模态技术的未来发展趋势和关键点梳理如下,供大家参考。
多模态技术的研究背景
多模态技术的研究背景可以追溯到人工智能对于复杂场景理解的需求。传统的单模态技术,如文本分析或图像识别,虽然在各自领域取得了显著的成就,但它们往往无法全面地理解和处理现实世界中的复杂信息。多模态技术通过整合不同模态的数据,使得机器能够更全面、更深入地理解信息,从而提高决策和预测的准确性。
多模态技术的定义与重要性
多模态技术是能够同时处理和分析多种类型数据(如文本、图像、声音等)的技术。其重要性在于,现实世界中的信息往往是多模态的,单一的数据类型无法全面反映事物的本质。多模态技术使机器能够更接近人类的感知和认知方式,从而在复杂场景中做出更加精准的判断。
多模态技术的研究动机
- 跨模态理解:现实世界的问题往往需要跨模态的理解,例如,将视觉信息与语言描述相结合,以更好地理解场景和情境。
- 信息的丰富性:不同模态的数据可以提供互补的信息,多模态技术能够整合这些信息,提高对复杂问题的解决能力。
VQA 2.0
视觉问答(Visual Question Answering, VQA)是多模态领域的一个核心任务,它要求系统不仅要理解图像内容,还要理解与图像相关的自然语言问题,并给出准确的答案。VQA 2.0代表了这一领域的进一步发展,它更加注重问题的复杂性和答案的多样性。
Image Caption
图像描述(Image Caption)任务要求系统自动为图像生成描述性文本,这不仅需要理解图像内容,还需要将这种理解转化为自然语言。
其他关键领域
- Cross-modal Retrieval:跨模态检索,即根据一种模态的查询(如文本)检索另一种模态的数据(如图像)。
- Visual Grounding:视觉定位,即将文本描述与图像中的特定区域关联起来。
文本生成图像
文本到图像的生成技术,如OpenAI的DALL-E 2和Google的Imagen,展示了多模态技术在创意领域的应用潜力。这些模型能够根据文本描述生成相应的图像,为艺术创作和内容生成提供了新的可能性。
GPT-4多模态认知能力
GPT-4展示了多模态认知能力,包括对视觉内容的细粒度理解与推理,以及对富文本图片表格的理解与推理。这标志着多模态技术在认知层面的进一步发展。
多模态预训练进展
多模态预训练技术的发展,如GIT2、BEIT3、PALI等,为多模态任务提供了强大的基础模型,这些模型通过预训练学习了丰富的跨模态特征表示。
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends
mPLUG多模态预训练技术
mPLUG是达摩院推出的多模态预训练技术,它通过深度学习框架整合了视觉和语言信息,以提高机器对多模态数据的理解能力。
多模态算法的挑战
在多模态算法的研究中,如何高效准确地表示视觉语义特征是一个关键挑战。此外,设计有效的多模态信息融合机制,以及如何建模图片文档的二维坐标信息和区域结构化信息,都是需要解决的问题。
挑战
1、如何进行高效准确地视觉语义特征表示
- Region / Grid / Patch2、 如何设计有效的多模态信息深度融合机制/结构(文本:high-level语义,图片:low-level语义)
- 多模态预训练(统一多模态理解和生成)
- 时效性(端到端)
- 融合机制(自适应)
3、如何更好地建模图片文档的二维坐标信息以及区域box-1evel结构化信息(富文本图片结构化理解)
AliceMind-MMU技术框架
AliceMind-MMU技术框架通过多模态结构化知识的融入,有效地实现了跨模态特征的融合。这一框架利用了StructBERT等技术,为多模态任务提供了强大的支持。
超大规模中文大模型PLUG
2021年4月19日,阿里达摩院发布了 270 亿参数、1TB + 训练数据、全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。阿里达摩院发布的中文社区最大规模预训练语言模型 PLUG(Pre-training for Language Understanding and Generation)。该模型集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。可用在小说续写、专业文稿撰写、生活常识解答、零样本学习、诗词生成、菜谱生成、自由创作等。
• 超大模型规模:在多项大规模分布式训练优化技术加持下,我们模型的参数规模达到270亿,是目前最大规模的中文纯文本预训练模型
•海量中文数据:超大规模模型采用了1T以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域
• 零样本生成:模型在不需要任何下游任务标注数据的情况下,就可以实现多种生成任务
端到端视觉语义增强的多模态预训练
E2E-VLP(End-to-End Vision-Language Pre-training)是一种端到端的视觉语义增强预训练方法,它通过视觉学习进一步提升了模型的性能。
- 解决两阶段多模态预训练不灵活、线上时延长的问题,进行视觉语义增强地多模态学习
- 多模态预训练新范式:将End2End多模态预训练统一到Transformer框架,同时支持NLU/NLG任务
- 在预训练中增加Visual Tasks (Object Detection,Image Caption)更好的融合图文语义
- 多个多模态NLU/NLG任务取得两阶段方法Comparable的效果,同时提速3倍
基于跨层融合的高效多模态预训练
mPLUG技术通过跨层融合的方式,实现了高效且有效的多模态学习。它在视觉问答(VQA)和图像描述(COCO Caption)等任务上取得了显著的成绩,超越了其他模型。
具备以下特点:
mPLUG-2模块化多模态预训练
考虑到不同模态,类型数据存在模态拉扯/纠缠(modality entanglement),很难用一个单一模块统一建模,取得所有任务SOTA效果,很难让多/单模态可以相互协同提升(modality collaboration)。 因此,借鉴人脑模块化的思想,提出模块化大一统模型mPLUG-2
• 不同的单/多模块基于对应数据进行层次化预训练,灵活拆拔不同的Module进行单/多模态任务(text,image,video)
• 通过共享universal模块充分利用模态协同,又能拆拔各自modality-specific模块进行模态互补
• mPLUG-2支持NLP/CV/多模态等30+多/单模态任务,在VideoQA和VideoCaption上取得绝对SOTA
• 不同的单/多模块基于对应数据进行层次化预训练,可以灵活拆拔不同的Module进行单/多模态任务(text,image,video)
• 通过共享universal模块充分利用模态协同,又能拆拔各自modality-specific模块进行模态互补
• 通过unified dual-vision encoder模块统一建模image,video进行模态协同帮助
- Dual-vision encoder Module:Image和Video共享Transformer来统一建模空间信息;Video额外增加LocalTemporal模块来建模时序信息
- Universal Layers Module:视觉和文本共享self-attention layers来对齐语义;当前视觉表示通过Specific cross-attention layers映射到original视觉表示来保留模态Bias
多模态电商场景应用
多模态技术在电商领域的应用,为零售行业带来了革命性的变化。通过商品理解结构化、商品主体选择、视频广告创意剪辑等应用,多模态技术提高了电商运营的效率和用户体验。
- 内容电商兴起
- 消费观念变化
- 算法工作挑战巨大(多模态、低资源、带噪声、终身学习)
零售行业大模型的技术亮点
零售行业大模型通过知识交互、多任务统一建模和层次化预训练,提升了多个下游任务的性能,成为双十一等大型促销活动的核心技术亮点。
商品理解结构化与主体选择
商品理解结构化和主体选择技术,使得电商平台能够更准确地识别和推荐商品,提高了用户的购物体验。
知识+数据双驱动的零售大模型技术体系
多任务统一建模
在商品主图中往往有多个物体同时被检测出,而与所售商品相关的主体大多只是其中一个多主体问题是导致图搜召回的一个重要问题,需要进行准确的主体商品的选择(借助商品标题等文本信息)
视频广告创意剪辑
随着内容化建设的推进,视频广告在电商平台上变得越来越重要。多模态技术在视频广告创意剪辑中的应用,使得广告更加吸引用户,提高了转化率。
结语
多模态技术的发展为人工智能领域带来了新的机遇和挑战。优秀的多模态技术方案需要深度跨模态特征融合机制和大规模多模态预训练的支持。多模态统一大模型将成为通用人工智能发展的重要方向。同时,大模型轻量化和层次化模块化大模型的研究,将使得多模态技术更加实用和高效。此外,跨模态数字内容生成技术的发展,都是很好的研究方向。