构建AI技术栈：MongoDB与AI工具

本文链接：https://blog.csdn.net/2401_89014665/article/details/144617379

构建AI技术栈：MongoDB与AI工具

关键字: [Amazon Web Services re:Invent 2024，亚马逊云科技，生成式AI， MongoDB， Ai Technology Stack， Mongodb Data Layer， Prototype To Production， Multimodal Data， Compound Ai Models]

导读

在本次会议中，您将听到来自人工智能领域四家杰出公司的创始人和工程领导者组成的专家小组的见解，这些公司包括MongoDB、Anyscale、Cohere和Fireworks AI。深入了解人工智能领域如何改变了他们的业务，构建大型语言模型（LLM）应用时需要考虑的重要因素，以及过去一年在开发人工智能工具和技术方面所获得的经验教训。了解他们最为兴奋的人工智能应用场景，以及将LLM应用从原型转化为生产环境所面临的挑战。同时，了解他们对人工智能未来发展的看法，哪些技术将会持续存在，哪些又将发生变革。欢迎提出您的问题。本次演讲由亚马逊云科技合作伙伴MongoDB为您呈现。

演讲精华

以下是小编为您整理的本次演讲的精华。

视频一开始由MongoDB的执行架构师Sachin Krishnan介绍，他已在公司工作超过9年。他自我介绍说，曾是MongoDB的客户，后来爱上了这项技术，现在正在与客户合作，为他们提供类似的体验。Sachin还是《构建AI密集型Python应用程序》一书的合著者，该书由Packet Publishing合作出版，公司目前已出版了4本书。

Sachin接着介绍了其他小组成员。Marwan Sahridin是AnyScale的AI工程师和技术培训人员，他向客户教授大规模计算和大规模AI培训。在加入AnyScale之前，Marwan创办了一家专注于监督深度学习的初创公司，并共同创办了一家房地产分析初创公司。他拥有麻省理工学院的工程硕士学位。

下一位小组成员是Cohere的高级现场和架构经理Pradeep Prabhakar。在这个职位上，Pradeep与客户合作，担任值得信赖的顾问，帮助他们发掘Cohere的生成式AI平台和粒子的潜力。在加入Cohere之前，他曾在亚马逊云科技工作，领导云转型项目。

最后一位小组成员是来自Fireworks的Pranay Patia，他在那里领导企业AI平台。之前，Pranay曾是Google的Gemini API的一员，将其从概念发展到拥有数百万适配器。他拥有沃顿商学院的MBA学位和印度理工学院孟买分校的学位。

Sachin开启了对话，承认过去一年半到两年中出现了生成式AI的时代。他询问客户在构建AI应用程序或大型语言模型(LLM)应用程序时应该考虑哪些关键因素，并邀请Pradeep分享见解。

Pradeep强调，数据是基础，干净的数据是一切的开端。他解释说，数据可以以各种形式使用，如作为检索增强生成管道的一部分、用于通过微调或预训练定制模型，或用于后训练。最终，数据的质量决定了AI LLM的输出。

Pradeep强调的第二个因素是性能、效率和成本。LLM训练和推理可能非常昂贵，因此设计能够在较小硬件上运行的应用程序至关重要，同时确保低延迟和高吞吐量。

Pradeep强调的第三点是隐私和安全。客户关注他们的数据将如何使用，尤其是当它是训练过程的一部分时，以及它是否最终会包含在输出中。客户需要考虑如何部署这些模型，是否在客户的VPC中完全隔离、在客户数据中心内的空气隔离环境中，还是通过模型提供商的基础设施通过API调用。

最后，Pradeep强调了用户体验(UX)设计的重要性。目标是构建易于客户使用的应用程序，因为使用量的增加会带来更好的反馈，从而产生更强大的模型。

Marwan接着补充了Pradeep关于性能和成本的观点。他表示，可以安全地假设这些AI工作负载将扩展，这意味着训练和推理都会扩展。因此，利用最具成本效益的方法至关重要，例如在自己的硬件上使用预留容量，而不牺牲性能或质量。

Sachin承认，亚马逊云科技所倡导的架构良好的框架仍然适用于AI应用程序或LLM驱动的应用程序，因为它们仍然是企业应用程序，关注安全性、性能、成本和可持续性。

来自Fireworks的Pranay强调了延迟和交互速度的重要性，尤其是针对实时聊天、动态使用AI创建内容或生成和编辑代码等用例。他指出，交互速度可以成就或破坏一个用例，产品参与度也会受到重大影响。Pranay建议，虽然最初可以尝试使用最强大的模型，但为了提高速度和参与度，可能需要转向针对特定用例进行微调的较小模型。

Sachin总结了关键要点，强调需要考虑构建大规模企业应用程序的基本要素，如训练和推理的成本，以及何时使用预训练的LLM与自己的数据进行训练。

讨论接着转向了从原型到生产环境帮助客户部署AI解决方案时所学到的经验教训。Marwan指出，一个关键见解是模型日益多模态化，需要利用多模态数据集。他举例说，AnyScale的合作伙伴Runway ML正在构建视频生成模型，需要使用图像、音频和文本。这需要建立一个复杂的计算基础设施，其中分布式计算工具如Ray提供了所需的灵活性和可扩展性。

Pranay分享说，他们正在看到复合AI模型的力量，结合专门的模型可以超越通用前沿模型的性能。他提到最近发布的F1模型，这是一种复合AI模型，在大多数基准测试中都优于GPT-4。

Pradeep补充说，在LLM上构建应用程序时，一个显著的学习经验是，在合成基准测试中表现出色的模型在现实生活中的混乱业务环境中往往会挣扎。针对特定用例进行微调的较小模型可能比在通用数据上训练的大型模型表现更好，这凸显了定制的重要性。

Pradeep还强调了协作和开源社区的力量，它使开发人员能够通过诸如Langua、LLaMA和InDex等工具更轻松地使用模型。

Sachin承认，数据不再仅仅是结构化或非结构化的，而是变成了多模态的，需要处理各种数据类型，如PDF、文档、XML、CSV、TXT、视频、音频和图像。他还认识到，公司已经积累了数十年的数据，期待有朝一日能够从中提取价值，而这种能力现在正在通过多模态模型成为现实。

讨论接着转向了合成数据生成的主题，Sachin询问合成数据是否有可能改变模型的推理。Pranay分享说，他们看到客户使用真实数据作为种子，围绕特定用例类别创建更多合成示例，取得了成功。这种方法避免了分布外的问题，并允许创建更大量的数据进行训练，从而能够使用更小、更具成本效益和性能的模型。

Marwan补充说，可以跨模态生成合成数据，例如从图像生成描述，并用于微调。

Pradeep举了一个他们正在从事的语言保护相关用例的例子。一些美洲原住民语言只有几十万或更少的母语使用者，需求是为后代保存这些语言。在这种情况下，合成数据生成有助于为训练模型创建基础数据集，从而保存可能被遗忘的语言。

Sachin对与一种被人类遗忘的语言进行对话的AI的可能性表示惊叹，承认该领域已经达到了令人惊叹的阶段。

对话接着转向了AI所启用的令人兴奋的用例。Pradeep讨论了个性化医疗，在治疗生命周期中，医护人员需要花费大量时间记录程序。生成式AI可以帮助减少这种文档记录时间，通过总结程序来改善病人的结果并降低医疗成本。

Pradeep还提到了应用程序现代化作为一个令人兴奋的用例。应用程序现代化项目的障碍之一是缺乏对遗留应用程序的文档记录。现在，生成式AI可以解释代码、创建文档，甚至可能生成代码，尽管实现完全自动化还需要更多工作。这可以为应用程序现代化项目提供一个很好的起点。

Sachin分享了MongoDB的一个名为现代化工厂的计划，利用LLM将遗留应用程序代码(包括数据库模式和代码)转换为新的数据模型和逻辑。这个过程的一个有趣方面是确保转换后的代码与原始代码的行为完全相同，这是通过预先生成测试用例并验证结果来实现的。

Marwan强调了药物发现领域作为一个令人兴奋的用例，特别是用于寻找类似药物的语义搜索。这涉及处理多模态数据，如来自显微镜或实验的图像，以帮助药物发现。以经济高效的方式处理大量数据的能力在这一领域至关重要。

Pranay分享了一个医疗保健提供商与数千名医生合作的例子。目标是在与患者互动时，在护理点为医生提供个性化建议。这是通过使用生成式AI从电子健康记录(EHR)系统的周期性屏幕截图中提取信息来实现的。该系统可以理解患者的健康记录和当前互动，从而提供相关的提示和建议，帮助医生提供更好的护理。

接着讨论转向从原型到生产的过渡。Pranay指出，随着AI工作负载的扩大，通常会出现两个挑战:成本优化和通过低延迟保持参与度。优化成本至关重要，尤其是在试验前沿AI模型时，这可能会很昂贵。一旦用例得到验证，创建良好的评估集、使用较小的模型进行测试以及微调模型等技术就可以帮助优化成本。

Pradeep补充说，目前整个行业都面临着GPU短缺的问题，当需要跨指数级数量的实例自动扩展应用程序时，这可能会成为一个制约因素。为了解决这个问题，有必要构建可以在较小的基础设施上运行的模型，同时满足延迟、吞吐量、准确性和成本的约束。

Pradeep还强调实施持续反馈循环周期的重要性，以解决大型语言模型固有的虚构特性。这个过程可以识别出不准确之处，并通过反馈循环进行验证和纠正。

Marwan强调了处理非结构化数据的基础设施挑战，这通常需要GPU和CPU的共同参与。找到新的工具，可以开箱即用地以最经济的方式处理数据，尤其是针对大规模推理，这对于避免支付高昂的在线推理成本至关重要。

Sachin承认，数据库世界已经从期望确定性和准确的结果，转变为接受近似值，就像Lucene这样的搜索引擎一样。现在，随着大型语言模型的出现，虚构成为了开发人员和公司必须理解和应对的现实，因为在大规模生产精确结果在计算或数据方面都是不可行的。

接下来，讨论探讨了AI领域中可能保留和改变的部分。Marwan认为，生成式AI并不是一股彻底颠覆现有工具的革命力量。相反，它将与经典的深度学习模型(如目标检测和人脸检测模型)并存。经典的深度学习世界并不会消失，基础设施需要同时支持生成式AI模型和传统模型。

Pradeep认为自然语言处理(NLP)和生成式AI将继续存在。他预计大型语言模型将变得更大、更强大，但自2017年引入以来被证明非常有用的底层Transformer架构将继续存在。Pradeep还预计代理AI的兴起，应用程序将通过能够在既定约束内独立推理和行动的自主代理来服务。

Pranay对开源模型迅速赶上封闭模型的进展印象深刻。他举了OPT的例子，这是一个几个月前发布的开源模型，目前已经有多个开源模型具备了影响时间计算和推理能力，其性能已经接近封闭模型。

Sachin介绍了“服务即平台”的概念，他一直在听到这个概念。与平台即服务(软件通过API托管和消费)不同，“服务即平台”是指公司利用多年或几十年积累的行业专业知识和数据来训练特定行业的大型语言模型。然后，这些模型可以作为服务提供，实际上是将他们的专业知识自动化并使之可消费，Sachin认为这将是公司的下一个差异化优势。

接着，讨论转向MongoDB应用程序(MAP)，Sachin邀请与会者分享对MAP对客户、社区和合作伙伴意味着什么的看法。

来自Any Scale的Marwan认为MAP是一个令人兴奋的项目，可以促进合作伙伴之间的协同效应。Any Scale是一个通用的AI工作负载计算平台，但它需要与MongoDB这样的数据平台集成。该项目还提供了一个合作伙伴生态系统，如Cohere和Fireworks，用户可以利用这些合作伙伴进行重新排序或在Any Scale上部署，同时将数据备份在MongoDB中。

Pradeep解释说，Cohere提供了大型语言模型，如他们的生成模型Command和R+，以及嵌入模型Embed和重新排序模型。这些模型可通过MAP项目生态系统获得。然而，Cohere的Embed模型生成的数值表示仍需要持久化到MongoDB Atlas这样的数据库中，无论存储文本、多模态数据还是其他类型的数据。这允许客户将嵌入作为检索增强生成(RAG)编排的一部分进行消费。

Pranay也有类似的观点，他表示对于LLAMA、Mistral和GwenDeepSee等开源模型，Fireworks和MongoDB的组合提供了模型、存储和持久化。他特别对MongoDB快速的数据库读写感到兴奋，结合Fireworks快速的推理，可以为依赖审计存储和模型协同工作的实时低延迟应用程序提供愉快的产品体验。

Sachin提到，他一直在听到需要根据用例使用不同的模型，以及能够将来自这些模型的向量存储在MongoDB中的同一数据集中。开发人员开始意识到拥有一个可以容纳任何提供商的向量的数据存储的灵活性，就像API经济中为不同目的调用不同API一样。

Sachin总结时强调，MongoDB应用程序是一个全面的项目，旨在解决各个角度的问题，包括技术提供商、托管提供商和专家合作伙伴。这是MongoDB的一项关键举措，无法单独完成，有Any Scale、Cohere和Fireworks等合作伙伴的参与至关重要，因为公司正在考虑他们下一个知识产权差异化。

总之，这个视频全面讨论了构建AI应用程序的关键考虑因素、经验教训、令人兴奋的用例、AI领域的趋势，以及MongoDB应用程序在帮助开发人员有效构建AI解决方案方面的作用。与会者分享了他们的见解、经验和观点，为当前和未来的AI技术状况提供了丰富详细的叙述。

下面是一些演讲现场的精彩瞬间：

演讲者讨论了从与客户合作将AI原型转移到生产系统中所学到的经验教训，以及AI领域的新兴趋势，同时也邀请了观众提出问题。

生成式AI帮助医疗服务提供者减少花费在文档工作上的时间，让他们能够更多地专注于患者护理和改善治疗效果。

MongoDB展示了他们的“货币化工厂”计划，利用大型语言模型(LLM)转换遗留应用程序代码，同时生成测试用例以确保转换后的代码保持原有功能，解决了应用程序现代化的一大挑战。

生成式AI使医生能够通过分析患者健康记录和当前互动，提供个性化建议和更好的护理。

演讲者讨论了“服务即平台”的新兴趋势，公司利用其领域专长和数据，提供针对特定行业定制的AI模型，实现全自动和可消费的体验。

Swami Sivasubramanian强调了在单一数据存储(如MongoDB)中灵活存储和使用来自不同AI模型的向量的需求，使开发人员能够利用多样化的模型，甚至对自己的数据进行矢量化。

演讲者强调了保持语义搜索和经典搜索功能的重要性，突出了MongoDB在满足这些需求方面的灵活性。

总结

在这个引人入胜的叙述中，我们探讨了利用MongoDB和AI工具构建AI技术栈的领域。来自MongoDB、Any Scale、Cohere和Fireworks AI的行业专家分享了他们在从原型到生产环节构建AI应用程序的见解和经验。

旅程从讨论启动成功AI应用程序所需的关键因素开始，如干净的数据、性能效率、隐私和安全性以及用户友好的界面。演讲者强调了多模态数据的重要性，包括文本、图像、视频和音频等各种格式，并利用公司几十年来积累的现有数据。

随着对话的进行，演讲者强调了一些令人兴奋的用例，这些用例曾经是难以想象的，包括个性化医疗、应用程序现代化、药物发现和语言保护。他们强调了复合AI模型的强大功能，这种模型结合了专门的模型，以提高性能和准确性。

在过渡到生产环节时，专家们强调了成本优化、性能可扩展性以及解决GPU可用性和幻觉等挑战的重要性。他们设想了一个未来，在这个未来，生成式AI、转换器架构和智能体AI将蓬勃发展，公司将提供自己的AI模型作为服务，利用其领域专长和数据。

最后，MongoDB应用程序计划被介绍为一项全面的举措，促进技术提供商、托管合作伙伴和专业知识之间的协作，使开发人员能够充分发挥AI应用程序的潜力。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者，亚马逊云科技正在携手广泛的客户和合作伙伴，缔造可见的商业价值 – 汇集全球40余款大模型，亚马逊云科技为10万家全球企业提供AI及机器学习服务，守护3/4中国企业出海。