打造生成式AI应用，从数据做起-CSDN博客

本文链接：https://blog.csdn.net/bmo40mqfg249h/article/details/139078023

荀子有句名言，水能载舟亦能覆舟。在生成式AI新时代，数据基础设施与大模型之间的关系亦是如此。大模型的快速发展不仅推动了数据基础设施的进步，而且也对数据基础设施提出了新的挑战。两者可谓相辅相成，共同促进了人工智能技术的演进与普及应用。

亚马逊云科技大中华区产品部总经理陈晓建表示：“企业需要的是懂业务、懂用户的生成式AI应用。”业务、用户，说到底还是数据。“无数据，不模型。因此，打造生成式AI应用，需要从数据做起。”陈晓建强调说。

无数据不模型

整体上来看，在AI时代，数据基础设施面临的挑战主要来自数据流动性增强与数据资产化加速。由于数据流动性的要求越来越高，为了将分散的数据转化为有用的知识，就必须对将数据集中起来进行价值挖掘，这就要求数据基础设施能够支持高效的数据收集、整合和流动；数据资产化加速对于有价值的数据的长期保留提出了更高的要求，这意味着数据基础设施必须能够支持长期、安全且可靠的数据存储；另外，数据基础设施还要妥善解决数据安全性、隐私保护与合规方面的问题。

当前，亚马逊云科技正在积极帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，以加速企业业务增长。

“数据是企业在生成式AI时代取得成功的关键。”陈晓建表示，“每个公司都能访问相同的基础模型，但只有那些能够利用自己的数据，构建具有真正商业价值的生成式AI应用的公司，才会取得成功。”

从某种程度上说，生成式AI基础模型就脱胎于大规模、高质量的数据集。实践证明，数据结合基础模型，将产生独特的价值。以Perplexity为例，这是一家构建世界上第一个对话答案引擎的公司，其产品自2022年12月推出以来，每月吸引超过1000万用户。面对生成式AI带来的新的业务增长，企业更迫切需要高效管理生成式AI应用所产生的新数据。

在获取、沉淀业务数据的基础之上，企业只有依托自身的数据，才能实现差异化的生成式AI应用。借助检索增强生成（RAG）、微调和持续预训练，企业可以通过数据定制基础模型，以满足不同场景的需要。进一步来说，由于RAG、微调和持续预训练对于数据规模、数据来源和相关技术的要求各不相同，这就对数据基础设施供应商提出了更高的要求。

亚马逊云科技作为生成式AI应用的赋能者，在数据基座的构建上，不断夯实三大支柱能力——模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力，以及有效处理新数据以助推生成式AI应用持续快速发展的能力，以便更好地帮助企业在生成式AI时代取得新的成功。

一个篱笆三个桩

俗话说，一个篱笆三个桩。如上文所述，企业在构建生成式AI应用时，必须具备三项基本能力。

首先，就是要具有利用现有数据支持微调或预训练模型的能力。

概括而言，从原始数据集到训练出基础模型，需要解决以下关键问题：找到合适的存储，承载海量数据；清洗加工原始数据，为高质量数据集以及对整个组织内数据的发现进行编目治理。

从数据存储的要求来看，扩展性与响应速度是关键。Amazon S3无论是从容量、安全性，还是功能上看，都能充分满足微调和预训练基础模型的要求。Amazon S3拥有超过200万亿个对象，平均每秒处理超过1亿个请求，并且支持广泛的数据协议，可轻松应对各种数据类型，还支持智能分层以降低训练成本。

陈晓建特别提到：“我们专门构建的文件存储服务Amazon FSx for Lustre具有亚毫秒延迟和数百万IOPS的吞吐性能，能够进一步提升模型优化的速度。”

从数据清洗能力来看，Amazon EMR Serverless和Amazon Glue可以帮助企业完成数据清理、去重乃至分词的操作，让企业专注于生成式AI的应用创新。具体来看，Amazon EMR serverless采用无服务器架构，易于使用，能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源，同时还提供实时监控和跨AZ的高可用设计。Amazon Glue则是简单、可扩展的无服务器数据集成服务，能够更快地集成数据，并且连接不同数据源，简化相关的代码工作。

从数据治理能力来看，Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据，不仅能够为多源多模态数据进行有效编目和治理，而且还提供简单易用的统一数据管理平台和工具，激发数据潜能。

将现有数据与模型快速结合，从而产生独特价值的能力，也是构建生成式AI应用所必不可少的。

从用户的角度，通常十分期待生成式AI能够给出高质量答案，但简单的对话背后，其实蕴藏着复杂的提示工程。检索增强生成（RAG）场景的核心组件是向量存储。向量存储的理想情况，是将向量搜索和数据存储结合在一起。这样一来，企业无需额外学习新的向量存储，也无需添加额外的组件和费用，更无需迁移现有数据，将向量检索与现有数据关联的速度也会更快。

亚马逊云科技在其8种数据存储中添加了向量搜索功能，为客户构建生成式 AI应用程序提供了更大的灵活性。今天，图数据库的应用越来越普遍。它非常擅长处理复杂关联，在社交网络、推荐系统、欺诈检测、知识图谱等领域被广泛应用。亚马逊云科技打造了图数据库Amazon Neptune，并为其增加了分析数据库引擎，从而将图数据的分析速度提升了80倍，在使用内置算法的情况下，几秒钟内可分析数百亿个连接。

为了更好地构建生成式AI应用，企业还应具备更有效的处理新数据的能力。

“据很多企业反映，终端用户绝大部分的问题是类似甚至重复的。”陈晓建表示，“解决这一问题，我们只要将之前问答生成的新数据存入缓存，那么以后在面对类似问题时，无需调用模型，而是可以直接通过缓存给出回答。这样做不仅可以减少模型的调用，还能有效节约成本。”

Amazon Memory DB内存数据库本是一个高速的缓存，同时还支持向量搜索。它能够存储数百万个向量，响应时间为毫秒级，能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景来说至关重要。

陈晓建提出建议：“企业可以将无服务器的速度与生成式AI的力量相结合，以实现快速交付，从而更好地支持业务创新。”无服务器的优势主要体现在，可以减少繁重复杂的运维，让企业专注于AI代码创新，空闲时还可收缩资源以实现高性价比，并能在需要时快速扩展以消除性能瓶颈。以Amazon OpenSearch Serverless为例，它主要用于向量搜索，可减轻企业配置运维OpenSearch的负担，快速响应市场变化。

“生成式AI不仅需要一个强大的基础模型，更重要的是拥有极其强大的数据能力。”陈晓建总结说，“亚马逊云科技不仅可以提供可信赖的数据底座，包括最基础的数据存储、清洗和治理能力，而且可以帮助客户将有价值的私有数据与模型进行更有效的结合，然后还能通过诸如无服务器化等丰富的技术手段，降低复杂性和成本，为业务的创新保驾护航。”

让生成式AI的数据飞轮转起来

“我们希望，在生成式AI时代，每一个企业都能借助亚马逊云科技的服务打造坚实的数据基座。这样，企业就可以高效安全地将海量的多模态数据与各种基础模型相结合，从而创建出一系列具有独特价值的生成式AI应用程序，同时产生更多新的数据。这些新数据反过来，又有助于提升模型的准确度，带来更好的用户体验。”陈晓建表示，“数据、模型、应用程序，形成一个正向的生成式AI数据飞轮，可有效带动企业业务不断走向成功。”

随着生成式AI不断融入各行各业，进入各种各样的场景，亚马逊云科技希望通过构建有效的数据服务，助力企业打造一个坚实的数据体，为其业务高质量发展赋能。

往/期/回/顾

从科技赋能到价值引领，东莞证券可进化的信创云建设启示录 “智算”雄起 | 智算操作系统要“顶天立地”

透过生成式AI看企业安全亚马逊CSO Steve Schmidt如是说

生成式AI蔚然成风店匠科技引领跨境电商新范式

亚马逊云科技突破生成式AI“最后三公里”