2024年详解多模态 AI(1)，2024年最新字节跳动算法工程师总结

最新推荐文章于 2025-02-18 14:47:27 发布

2401_84925335

最新推荐文章于 2025-02-18 14:47:27 发布

阅读量560

点赞数 5

文章标签： go 学习面试

本文链接：https://blog.csdn.net/2401_84925335/article/details/138931981

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

虽然大多数先进的生成式人工智能工具仍然无法像人类一样思考，但它们正在提供突破性的结果，使我们更接近通用人工智能（AGI）的门槛。该术语指的是一个假设的人工智能系统，它可以像人类一样理解、学习和应用知识来完成各种任务。

在关于如何实现 AGI 的辩论中，我们需要解决的一个核心问题是人类如何学习。这就引出了人类大脑是如何工作的。长话短说，我们的大脑依靠我们的五种感官从周围环境中收集各种信息。然后，这些信息被存储在我们的记忆中，经过处理以学习新的见解，并用于做出决策。

第一个现代生成式 AI 模型，如 ChatGPT，被认为是单模态的;也就是说，他们只能将一种类型的数据作为输入并生成相同类型的输出。特别是，这些模型中的大多数被设计为处理文本提示并生成文本响应。

这是有道理的，因为这些模型需要大量的数据来训练，而文本不仅是一种可以轻松存储和处理的数据类型，而且也很容易获得。ChatGPT 等工具的大部分训练数据都来自互联网上的不同来源也就不足为奇了。

然而，阅读只是人类学习新事物的各种方式之一，而且对于许多任务来说，并不是最有效的。

多模态学习是人工智能的一个子领域，它试图通过使用大量文本以及其他数据类型（也称为感官数据，如图像、视频或录音）来训练机器来增强机器的学习能力。这使得模型能够学习文本描述与其相关图像、视频或音频之间的新模式和相关性。

多模态学习正在为智能系统开启新的可能性。训练过程中多种数据类型的组合使多模态 AI 模型适用于接收多种输入类型的模态并生成多种类型的输出。例如，ChatGPT 的基础模型 GPT-4 可以接受图像和文本输入并生成文本输出，以及 OpenAI 最近发布的 Sora文本到视频模型。

多模态人工智能的核心概念

多模态生成式 AI 模型为最先进的 LLM 增加了新的复杂性。这些模型基于一种称为 Transformer 的神经架构。Transformer 由 Google 研究人员开发，依靠编码器-解码器架构和注意力机制来实现数据的高效处理。

这是一个相当复杂的过程，可能难以理解。如果您想了解有关 LLM 和 Transformer 如何工作的更多详细信息，请自行百度。

来源：DataCamp

多模态 AI 依靠数据融合技术来集成不同的数据类型，并构建对基础数据的更完整、更准确的理解。最终目标是通过结合不同数据模式提供的互补信息来做出更好的预测。

单模态与多模态 AI。资料来源：ResearchGate

单模态与多模态 AI

可以实施多种数据融合技术来应对多模态挑战。根据融合发生的处理阶段，我们可以将数据融合技术分为三类：

**早期融合。**它涉及将不同的模态编码到模型中以创建通用表示空间。此过程会产生单个模态不变输出，该输出封装了来自所有模态的语义信息。
中融合。它涉及在不同的预处理阶段组合模态。这是通过在神经网络中创建专门为数据融合目的而设计的特殊层来实现的。
**晚期融合。**它涉及创建多个模型来处理不同的模态，并将每个模型的输出组合到一个新的算法层中。

没有一种单一的数据融合技术最适合所有类型的场景。相反，所选择的技术将取决于手头的多模式任务。因此，可能需要反复试验才能找到最合适的多模态 AI 管道。

支持多模态 AI 的技术

多模态人工智能是在人工智能的多个子领域积累知识的结果。近年来，人工智能从业者和学者在以多种格式和方式存储和处理数据方面取得了令人瞩目的进展。

在下面，您可以找到推动多模态 AI 热潮的领域列表：

深度学习

深度学习是人工智能的一个子领域，它采用一种称为人工神经网络的算法来处理复杂的任务。当前的生成式人工智能革命是由深度学习模型驱动的，特别是 transformer，这是一种神经架构。

多模态人工智能的未来也将取决于该领域的新进展。特别是，非常需要研究以找到增强变压器功能的新方法，以及新的数据融合技术。

自然语言处理（NLP）

NLP是人工智能中的一项关键技术，弥合了人类交流和计算机理解之间的差距。它是一个多学科领域，使计算机能够解释、分析和生成人类语言，从而实现人与机器之间的无缝交互。

由于与机器通信的主要方式是通过文本，因此 NLP 对于确保生成式 AI 模型（包括多模态模型）的高性能至关重要也就不足为奇了。

计算机视觉

图像分析，也称为计算机视觉，包括一组计算机可以“看到”和理解图像的技术。该领域的进展允许开发多模态 AI 模型，这些模型可以将图像和视频作为输入和输出进行处理。

音频处理

一些最先进的生成式 AI 模型能够将音频文件作为输入和输出进行处理。音频处理的可能性范围从解释语音信息到同声传译和音乐创作。

多模态AI的应用

多模态学习使机器能够获得新的“感官”，从而提高其准确性和解释能力。这些权力为跨部门和行业的无数新应用打开了大门，包括：

增强生成式 AI

大多数第一代生成式 AI 模型都是文本到文本的，能够处理用户的文本提示并提供文本答案。GPT-4 Turbo、Google Gemini或 DALL-E 等多模态模型带来了新的可能性，可以改善输入和输出端的用户体验。无论是接受多种模式的提示还是生成各种格式的内容，多模式 AI 代理的可能性似乎都是无限的。