生成式AI入门必读：基本概念、数据挑战与解决方案

MongoDB 数据平台

已于 2024-04-26 16:42:40 修改

阅读量3.4k

点赞数 21

分类专栏： AI应用文章标签：人工智能

于 2024-04-18 21:40:12 首次发布

本文链接：https://blog.csdn.net/MongoDBChina/article/details/137938482

版权

AI应用专栏收录该内容

29 篇文章 0 订阅

订阅专栏

请添加图片描述

随着生成式 AI（通常简称为 GenAI）的兴起，我们的世界发生了翻天覆地的变化。而随着 AI 生成内容的革命性应用程序的出现，人们也认为生成式 AI 将从根本上影响社会的各个行业和部门。

组织们都在竞相捕捉生成式 AI 的潜力。如果您也是其中一员，那么您的首要任务就是了解生成式 AI 的复杂性。在本文中，我们将讨论以下关键问题，帮助您把握方向：

● 什么是生成式 AI？它如何工作?

● 数据在生成式 AI 中的作用是什么?

● 实施基于生成式 AI 的应用程序的最大挑战是什么？

解决这些问题后，我们将了解 MongoDB 如何帮助希望构建由生成式 AI 提供支持的应用程序的组织。

让我们从基础知识开始。

什么是生成式 AI？它如何工作？

生成式 AI 是指人工智能的一个分支，专注于创作新颖、独特的内容，例如文本、视觉艺术、音乐、软件代码等。

与预测性或分析性AI（使用机器学习来分析历史数据、识别模式或趋势，然后进行预测）不同，生成式 AI 超越了简单的分析和预测；生成式 AI 是创作。

例如，当一个预测性 AI 工具经过数百万幅画作及其艺术家所组成数据的训练后，给定一幅以前从未见过的画作，预测性 AI 工具也许能够确定艺术家。然而，生成式 AI 系统可以按照该艺术家的特定风格创作一幅新画。

在这里插入图片描述

AI 生成的图像，向 DALL-E 输入提示“Mondrian 风格的计算机绘画”的结果

生成式 AI 通常旨在模仿人类的智力和创造力，这意味着生成的内容与上下文相关且连贯。AI生成的内容将与人类的思维和表达模式共鸣；AI艺术可能与人类创造的内容几乎没有区别。生成式AI输出的可能是文本或语音。无论如何，这些输出是熟悉的，但又是原创的，是创新的，同时又是真实的。

通过推理创建上下文相关的内容，生成式 AI 功能可以应用于战略规划和预测、问题解决以及假设分析等任务。

生成式 AI 在 AI 领域的重要性

生成式 AI 在新颖内容创作中的作用为所有 AI 带来了变革性潜力。生成式 AI 模型可以应用于从娱乐到医疗保健的所有行业。

在艺术领域，GPT 与稳定扩散等扩散模型相结合，使得生成式 AI 能够生成图像。因此，AI 艺术已经成为一个巨大的市场，艺术家们利用生成式 AI 来创作逼真的图像，与自然图像几乎没有区别。在营销领域：营销人员使用生成式 AI 撰写营销内容，设计人员使用生成式 AI 来创造新产品设计。甚至制药公司也在使用生成式 AI 来协助药物发现。

生成式 AI 模型的类型

AI 模型是一组 AI 算法，它们使用机器学习来识别数据中的模式，从而使它们能够做出预测或生成模仿原始数据的结构和风格的新数据。AI 领域充满了许多不同类型的模型，其中生成式 AI 中最著名的是基础模型。

基础模型经过大量数据的预训练。该模型作为“基础”，可以针对特殊任务进行调整。这使得基础模型具有难以置信的多功能性，能够胜任许多不同的任务。

大语言模型 (LLM)是基础模型的例子之一。OpenAI 的 GPT（生成式预训练转换器）是一个大语言模型，旨在与人类语言一起使用。大语言模型专注于自然语言处理，可以执行问答、聊天机器人、转录、翻译等会话任务。

其他类型的基础模型可能侧重于非文本内容。这些包括生成图像的视觉基础模型，例如 Flamingo 或 OpenAI 的 DALL-E，或音频基础模型，例如 UniAudio 或 LLark.

什么是检索增强生成 (RAG)？

LLM 受限于上次训练更新之前的可用信息，因此它不知道自那之后发生的事件或发展。那么，考虑到新数据，我们该如何利用大语言模型呢？

你可以选择使用新数据重新训练或微调生成式模型。然而，这可能需要大量的时间和资源。更好的选择是检索增强生成 (RAG)。

RAG 允许 LLM 在内容生成过程中动态获取外部实时信息。借助 RAG，生成式 AI 系统可以实时查询信息数据库，从而生成更准确、更明智且更符合上下文的输出，即使所需的知识不是最初用于训练的数据的一部分。

RAG 拓宽了 LLM 在生成高质量内容方面保持最新和多功能的能力。这句话很好地总结了RAG——“RAG 填补了 LLM 未受过训练的知识空白，基本上将问答任务变成了“开卷测验”，这比开放和无限制的问答任务更容易，也更简单。”

然而，为了让 RAG 从大量数据中有效地检索相关的、语义相似的信息，它依赖于向量嵌入——高维空间中数据的数字表示。存储和查询这些嵌入的最佳方法是使用向量数据库。

数据在生成式 AI 中的作用

任何 AI 系统（包括生成式 AI 系统）的有效性和多功能性都取决于用来训练其模型的数据的质量、数量和多样性。

训练数据：数量与质量并重

生成式 AI 模型是在海量大型数据集上进行训练的。为文本设计的模型可能经过数十亿篇文章的训练，而为图像设计的另一个模型可能经过数百万张图片的训练。如果大语言模型要生成连贯且符合上下文的内容，则需要大量的机器学习训练数据。随着数据越来越多样化和全面，模型理解和生成广泛内容的能力得以提高。

一般而言，更多的数据可转化为更好的模型输出。使用更大的数据集，生成式 AI 模型可以识别更细微的模式，从而生成更准确、更细致的输出。但是，数据的质量也极其重要。通常，较小的高质量数据集的表现可能优于较大、不太相关的数据集。

原始数据和复杂数据

原始数据，尤其是复杂且非结构化的数据，可能需要在数据管道的早期阶段进行预处理，然后才能用于训练。这也是验证数据的时间，确保其具有适当的代表性且没有偏见。这一验证步骤对于避免扭曲或片面的输出至关重要。

标记数据与未标记数据

标记数据提供有关每个数据点的特定信息（例如，图像附带的文本描述），而未标记的数据则不包含此类注释。生成式模型通常适用于未标记的数据，因为它们仍然能够通过理解固有的结构和模式来学习如何生成内容。

专有数据

有些数据是企业独一无二的资产，包括客户订单历史记录、员工绩效指标和业务流程等。许多企业会收集这些数据，将其匿名化以防止敏感的 PII 或 PHI 泄露给下游，然后进行传统的数据分析。这些数据如果用于训练生成式模型，则能够更深入的挖掘数据中包含的信息与洞察；而模型的生成内容可以根据企业的具体需求和特点进行定制化输出。

数据在 RAG 中的作用

如上所述，RAG 将 LLM 的强大功能与实时数据检索相结合。借助 RAG，您不再仅仅依赖预训练的数据。相反，您可以从外部数据库即时提取相关信息。这确保了生成的内容是最新且准确的。

如何使用专有数据增强生成式 AI 模型

在使用生成式模型时，“提示工程”扮演着重要的角色。这项技术要求我们精心设计特定输入查询或指令来指导模型，使其能够更好地定制化输出或响应。借助 RAG（检索增强生成）技术，我们可以使用专有数据来增强提示，使 AI 模型能够在考虑企业数据的情况下，生成相关且准确的响应。与传统的通过重新训练或微调 LLM 相比，这种基于提示的方法更加省时、高效而经济。

挑战和注意事项

当然，使用生成式 AI 并非没有挑战。如果您的组织希望发挥 GenAI 的潜力，您应该牢记以下关键问题。

需要数据专业知识和强大的计算能力

生成式模型需要大量资源。首先，您需要训练有素的数据科学家和工程师的专业知识。除数据组织外，大多数企业都没有具备训练或微调 LLM 所需专业技能的团队。

就计算资源而言，对模型进行全面的数据训练可能需要数周或数月的时间，即使您使用功能强大的 GPU 或 TPU 也是如此。尽管微调 LLM 可能不像从头开始训练那样需要那么多的计算能力，但它仍然需要大量的资源。

LLM 的资源密集型训练和微调使得 RAG 成为一种有吸引力的替代技术，用于将当前（和专有）数据与预训练 LLM 可用的现有数据相结合。

道德考量

生成式 AI 的兴起也引发了对其开发和使用所带来的道德考量的激烈讨论，包括

● 如何确保模型公平和无偏见

● 防范模型遭受病毒或被篡改等攻击

● 防止虚假信息的传播

● 防止滥用生成式 AI（例如深度伪造或生成误导性信息）

● 保留归属

● 提高用户对使用生成式 AI 聊天机器人（而不是与人类进行交互）的知情透明度。

不一定非得是GenAI：选择最适合业务的AI工具

生成式 AI 工具的大肆宣传和新奇感，让许多人错误地认为生成式 AI 是解决他们所有问题的 AI 工具。然而，虽然生成式 AI 擅长创建新内容，但其他 AI 工具可能更适合某些业务任务。就像堆栈中的任何工具一样，应该权衡生成式 AI 的优势与其他工具的优势。

RAG 特定的挑战

利用大型语言模型的 RAG 方法非常强大，但也面临着一系列挑战。

● 选择向量数据库和搜索技术： RAG 方法的效率最终取决于其快速检索相关数据的能力。因此，选择向量数据库和搜索技术是影响RAG性能的关键决策。

● 数据一致性： 由于 RAG 实时提取数据，因此确保向量数据库最新和一致至关重要。

● 集成复杂性： 将 RAG 与 LLM 集成会增加系统的复杂性。借助 RAG 有效实施生成式 AI 可能需要专业知识。

尽管存在这些挑战，RAG 为组织提供了一种简单而强大的方法，利用其运营和应用程序数据来收集丰富的见解并为关键业务决策提供信息。

用于 GenAI 应用程序的MongoDB Atlas

我们已经了解生成式 AI 的变革性潜力，并且看到了 RAG 对实时数据带来的增强效果。将这些技术结合在一起需要一个灵活的数据平台，提供一套为 GenAI 应用程序量身定制的功能。对于涉足生成式 AI 和 RAG 领域的组织来说，MongoDB Atlas 将改变游戏规则。

MongoDB Atlas 的核心功能包括：

☑ 原生向量搜索功能： MongoDB Atlas 内置原生向量存储和搜索功能，可确保 RAG 快速高效地检索数据，而无需额外的数据库来处理向量。

☑ 统一的 API 和灵活的文档模型： MongoDB Atlas 的统一 API 允许开发者将向量搜索与其他查询功能（例如结构化搜索或文本搜索）相结合。再加上 MongoDB 的文档数据模型，为您的实施带来了难以置信的灵活性。

☑ 可扩展性、可靠性和安全性： MongoDB Atlas 提供水平扩展，可以随着您（和您的数据）的增长而轻松扩展。凭借容错能力和简单的水平和垂直扩展，MongoDB Atlas 可确保不间断的服务，无论您的工作负载需求如何。当然，MongoDB也展示了它如何通过启用行业领先的可查询数据加密来优先考虑安全性。

在这里插入图片描述

MongoDB Atlas 对于简化 RAG 增强的 LLM 系统的实施至关重要。通过处理生成式 AI 数据服务，MongoDB 简化了您构建企业就绪、GenAI 支持的应用程序的过程。无论您希望纳入的数据是专有数据还是最新事件数据，MongoDB 都能让 RAG 方法成为现实。在最近对 1500 名受访者进行的 AI 现状调查中，MongoDB Atlas Vector Search 在所有向量解决方案中获得了最高的开发人员满意度。

结论

作为人工智能的一个子集，生成式 AI 使用经过大量现有内容训练的模型来创建新的、独特的内容，代表了现代技术的变革性飞跃。然而，为了让生成式 AI 能够出色地模仿人类智力和创造力，它必须接受大量高质量数据的训练。生成式 AI 模型的有效性取决于其训练数据的质量、数量和多样性。

LLM 的可用数据受该 LLM 的最后一次训练更新的限制。合并最新数据无法通过模型重新训练或微调来完成，因为一旦这些流程完成，数据就已经过时了。这一局限的解决方案是 RAG，它从向量数据库中查询最新数据，作为提示工程任务的一部分。RAG 使 LLM 能够访问当前的相关信息（包括企业的专有信息）而无需进行资源密集型的训练或微调，从而增强 LLM 的能力。

为了实现这一目标，许多企业正在选择MongoDB Atlas。其原生向量搜索功能，加上统一的 API 和灵活的文档模型，对于寻求通过 RAG 方法提取专有数据来增强 LLM 的企业来说，是一个有吸引力的选择。

MongoDB Atlas

MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务，由 MongoDB 数据库的开发团队构建和运维，可以在AWS、Microsoft Azure、Google Cloud Platform 云平台上轻松部署、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践，可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和 API 就可以完成这些工作，由此您可以将更多宝贵的时间花在构建您的应用上。

👉点击访问 MongoDB中文官网
👉立即免费试用 MongoDB Atlas
☎️需要支持？欢迎联系我们：400-8662988
✅欢迎关注MongoDB微信订阅号（MongoDB-China），及时获取最新资讯。