使用 Llama 3.1 405B 创建合成数据

《使用 Llama 3.1 405B 创建合成数据》概述了如何利用Meta最新发布的强大大型语言模型(LLM)Llama 3.1 405B创建合成数据,以改进各种行业应用中的模型准确性。合成数据并不是创建新信息,而是通过转换现有信息来生成不同的变体,从而提升模型的性能。

文章首先介绍了合成数据的两个主要生成方法:知识蒸馏和自我改进。知识蒸馏将大模型的能力转化为小模型,而自我改进则是模型通过批评自身推理来进一步提升能力。然后,文章详细描述了LLM训练的三个步骤:预训练、微调和对齐。

  1. 预训练:使用大量数据训练模型,使其掌握语言的基本结构。对于特定领域的LLM,需要进行领域适应性预训练(DAPT),即使用特定领域的数据进行预训练。

  2. 微调:在掌握了语言基本结构后,微调模型以更好地执行特定任务,如阅读理解、逻辑推理和代码生成。

  3. 对齐:确保LLM的回答风格和语气符合用户期望,通过使用奖励模型提供反馈,实现强化学习。

文章还探讨了使用LLM生成的合成数据来改进其他模型和系统,如检索增强生成(RAG)模型,这种模型结合嵌入模型和LLM生成答案。合成数据不仅可以评估检索管道,还可以用于模拟和研究行为模式。

为说明这些应用,文章举例说明了如何生成评估数据来优化检索管道。具体步骤包括生成问题、过滤问题以及注入用户风格:

  1. 生成问题:从文档中提取兴趣点,生成不同类型的问题,确保问题的多样性和复杂性。

  2. 筛选问题:通过LLM去重并判断问题的相关性,确保问题能由文档中的信息回答。

  3. 注入风格:使用LLM根据用户描述的风格重写问题,使其符合不同用户的语气和写作风格。

通过这些步骤,合成数据可以帮助评估和优化RAG管道,提高模型生成基于最新信息的准确回答的能力。最终,Llama 3.1 405B与NVIDIA Nemotron-4 340B奖励模型结合,能够生成高质量的合成数据,使企业能够构建更准确的定制模型。

该文总结了合成数据生成的重要性,并强调了这种方法对企业在各个领域的应用,如金融风险评估、零售供应链优化、电信客户服务和医疗保健的潜在价值。


Creating Synthetic Data Using Llama 3.1 405B

使用 Llama 3.1 405B 创建合成数据

2024年7月23日__作者:Tanay Varshney 和 Chintan Patel

合成数据并非在创建新信息,而是通过转化现有信息来生成不同的变体。十多年来,合成数据被广泛应用于提高模型的准确性,无论是通过转换图像来改进物体检测模型,增强信用卡欺诈检测能力,还是提升用于问答系统的 BERT 模型性能。

有什么新变化?随着大型语言模型(LLMs)的问世,生成合成数据的动机和技术都得到了显著增强。

各行各业的企业正通过生成合成数据来微调基础 LLMs,从而应用于多种场景,例如改善金融行业的风险评估、优化零售行业的供应链管理、提升电信行业的客户服务,以及推进医疗保健领域的患者护理水平。

最近,Meta 发布了 Llama 3.1 405B,这是迄今为止他们最强大的开放大型语言模型(LLM),不仅适用于批量推理,也支持在线推理。该模型还可以作为基础,进行特定领域的专门预训练或微调。鉴于模型的规模和所使用的海量训练数据,这款模型非常适合用于生成合成数据。

在此篇博客文章中,我们将介绍若干合成数据生成的应用案例,并深入剖析其中的一个。

基于 LLM 的生成式 AI 合成数据

让我们一同探讨在生成式 AI 领域中合成数据的一些高层次应用案例。在这些案例中,你可以使用 Llama 3.1 405B 作为起点。

使用 LLM 生成的合成数据来改进语言模型

从广义上来讲,生成用于调整模型的合成数据有两种主要的方法——知识蒸馏和自我改进。

知识蒸馏是一种将大型模型的性能迁移至小型模型的技术。这种方法无法通过在相同数据集上同时训练两者来实现,因为小型模型可能无法捕捉最精确的底层数据表示。在这种情形下,我们可以先使用大型模型完成任务,然后利用生成的数据使小型模型模仿大型模型的行为。

自我改进包括利用同一模型对其自身推理进行批判,通常用于进一步提升模型的性能。这两种方法都可以用来利用 Llama 405B 模型来优化较小的 LLMs。

让我们来看一下具体实现这一目标的几种方法。训练一个 LLM 涉及三个步骤:预训练、微调和对齐。

预训练: 这涉及通过使用极其庞大的信息语料库来训练模型,从而掌握语言的一般结构。对于通用的 LLM,这通常通过互联网规模的数据来实现。然而,对于特定领域的 LLM,我们需要将该领域的具体知识注入其中(例如几何学领域的 LLM、放射学领域的 LLM 和电信领域的 LLM)。这种过程被称为领域自适应预训练 (DAPT)。另一个在预训练阶段使用合成数据的例子是知名的 Phi-1.5 模型,其中一个大型模型被用来在预训练阶段生成数据,以注入逻辑推理能力。

微调:在模型已经针对通用语言结构完成训练之后,下一步是进行特定任务的微调。例如,通过微调模型使其更擅长处理阅读理解类型的提取问题、提升逻辑推理能力、实现更优质的代码生成以及函数调用等。Self-Instruct、WizardCoder、Alpaca 等方法利用这些技术来创建特定任务的微调数据集。请参阅此示例以策划领域特定的数据,了解更多信息。

对齐:最后,我们希望确保 LLM 的反应风格和语气符合用户的预期,例如听起来具有对话性、有适当的冗长度、复杂性、一致性及其他用户定义的属性。这一点可以通过使用包含指令模型和奖励模型的管道来实现。具体而言,聊天模型生成多个回应,而奖励模型则对回应的质量进行反馈。这种技术属于从 AI 反馈中进行强化学习 (RLAIF) 的范畴。本笔记本将向你演示如何利用新的 Llama 405B 模型和 NVIDIA 340B 奖励模型生成用于模型对齐的合成数据。

使用 LLM 生成的合成数据来改进其他模型和系统

鉴于合成数据的应用范畴极为广泛,我们将在此讨论中重点关注与 LLM 相关的模型和由 LLM 驱动的工作流程。

检索增强生成 (RAG) 结合使用嵌入模型来检索相关信息,并利用 LLM 生成答案。嵌入模型能够生成文本语义的数学表示。我们可以利用 LLM 对底层文档进行解析和数据综合,从而对嵌入模型进行评估和微调。

类似于 RAG,任何代理管道都可以对其组成模型进行评估和微调。通过使用由 LLM 驱动的代理构建模拟,可实现上述目标。这些模拟还可用于研究行为模式。此外,还可以在 LLM 中引入不同的角色,以大规模生成特定任务的数据。

用于评估 RAG 的合成数据

为了更好地阐明上述讨论,我们来探讨一下一个基本流程——生成用于检索的评估数据。可以参照这个笔记本进行操作。

策划评估检索管道数据的主要挑战是:

  • 多样性:问题不应仅限于信息的某一单一方面,也不应仅包含提取性问题。

  • 复杂性:生成的问题应当需要一定的推理过程或多重证据来进行回答。

我们将重点关注多样性,但为了从复杂性角度进行探索,关键在于找到具有重叠信息点的块。寻找重叠信息的几种方法包括计算句子级别语义的 Jaccard 相似性,以及利用长上下文模型在同一文档的不同块之间建立相关性。

多样性源自于多元的视角。例如,请参阅下列段落。

SolarPower Corporation 拟收购 GreenTech Inc. 是今年可再生能源领域最显著的交易之一。该交易价值 30 亿美元,旨在将 GreenTech 的尖端电池技术与 SolarPower 的广泛太阳能电池板制造和分销网络相结合。预计这些运营协同效应将在未来两年内使生产成本降低 20%,收入增加 15%。然而,由于潜在的反垄断问题,该交易正受到监管机构的严密审查。联邦贸易委员会 ( FTC ) 已表示,该合并可能在可再生能源存储市场上创造垄断,可能会抑制竞争和创新。

SolarPower 承诺保持 GreenTech 的研究与开发 (R&D) 中心运作,该中心拥有超过 500 名科学家和工程师,作为独立实体,以维护其创新文化。此外,所有现有的雇佣合同将得到尊重,从而减轻对潜在裁员的担忧。合并协议中规定,如果 SolarPower 未能获得必要的监管批准,将向 GreenTech 支付 1.5 亿美元的解约费,从而在交易失败时降低 GreenTech 的财务风险。

该协议包含详细的陈述和保证,明确财务报表的准确性、无未披露的负债,以及遵守适用法律的情况。协议还包括详尽的赔偿机制,以保护双方免受这些陈述和保证可能带来的违约风险。在交易完成之前,SolarPower 和 GreenTech 同意了一系列约定,限制 GreenTech 增加新债务、发行新股或在未经 SolarPower 同意的情况下显著改变业务运营。这些约定旨在保持 GreenTech 的价值,并确保合并后的顺利过渡。协议进一步概述了全面的尽职调查过程,包括对 GreenTech 的环境评估和知识产权组合的审计,确保在交易最终完成前,所有资产和负债都被准确核算。

欧洲委员会正在对这次合并进行审查,以评估其对欧盟市场的影响,特别是对竞争和市场主导地位的影响。此项评估需要提交详细的文件,包括市场分析、竞争影响评估以及合并的经济理由。审查过程中,要求两家公司迅速回应所有询问并提供全面的文件。此外,为了获得批准,SolarPower 和 GreenTech 可能需要做出让步,例如剥离某些业务部门或资产,以减轻对竞争减少的担忧。确保符合《欧盟合并条例》不仅需要处理竞争影响,还需确保合并符合更广泛的欧盟市场公平和消费者保护政策。

金融分析师关注的是两家公司在合并前后的财务表现。法律专家则可能会对公司受到 FTC、欧盟以及其他机构法律审查的情况感兴趣。记者则希望了解其中的主要观点。

所有这些观点和用户角色都是合理的。由于它们从不同的角度看待同样的信息,评估流程也必须适应这种多样性。为此,我们设计了一个流程,该流程能接收文档及用户角色,并以符合各角色语气的方式输出相关问题。

生成用于评估检索的合成数据是一个三步骤的过程。首先,我们生成所有问题,然后对这些问题进行筛选,最后生成语法变体。

图 1. 用于检索评估生成合成数据的三步流程的高级概述

从概念上讲,这个流程包括三个主要步骤,如图 1 所示。

  • 第一步:生成所有可能的问题,这些问题能够引起各类角色的兴趣。

  • 第二步:筛选所有生成的问题。

  • 第三步:引导人物的写作风格。

第一步:生成问题

在我们开始生成问题之前,需要先读取文档并将其拆分为若干部分。在接下来的讨论中,我们将使用图 1 作为参考的文本块。

第一步包括生成兴趣点、对这些兴趣点进行去重,然后将所有兴趣点映射到问题类型,最后生成所有相应的问题。

图 2. 深入分析生成问题的第一步

用户画像仅是对可能提出问题的用户的一种描述。请参阅以下示例。

角色 1Joan 是一位资深的金融分析师,主要专注于运用计量经济学来给出投资策略建议。Joan 习惯于依赖其团队中的分析师获取所需信息,因此他们可能对具体细节不够了解,可能会提出一些模糊的问题。然而,他们对该领域的总体情况非常精通。

角色 2Padma 是一名具有超过 10 年经验的资深企业诉讼律师,专门处理大型企业的复杂法律案件。她作风务实,以其锐利的分析能力和对细节的高度关注而著称。

角色 3Aaron 是一名缺乏自信的新闻学专业学生,因此他不会深入探究底层材料。他的英语水平仍然较为初级,尚未达到熟练掌握的程度。他还有一个不好的习惯,就是喜欢夸大其词。

一旦输入到 LLM 中,该模型会为每个角色从给定的文本段落中提取出兴趣点。由于多个角色可能会有相似的兴趣点,因此我们使用嵌入模型来执行语义去重处理。此过程将段落中的不同有趣信息片段加以映射和标记。

多样性还体现在所提问题的类型上。我们需要提出包括抽取式、概述式、比较式等在内的多种类型的问题,而不仅仅局限于直接性的“如何/什么”问题。因此,下一步的关键在于根据段落中的信息,识别出适用于每个兴趣点的问题类型。

最后,通过块-兴趣-问题类型三元组,我们生成了所有可能的问题。通过使用 personas 和问题类型来引导问题的生成,开发者可以将生成的问题导向用户可能提出的类型。

兴趣领域示例及问题类型

  • 反垄断监管审查:抽象,诊断

  • 运营协同效应:提取,抽象

  • 创新保护:提取,抽象,诊断

  • 欧盟并购规制:抽象,诊断,提取,聚合

问题示例

  • SolarPower Corporation 与 GreenTech Inc. 合并可能带来哪些潜在风险或缺点,两家公司如何计划减轻这些风险?

  • 欧盟委员会对并购的审查将如何影响协议条款,SolarPower 和 GreenTech 可能需要做出哪些让步才能获得批准?

  • SolarPower 和 GreenTech 希望通过并购实现哪些战略利益,它们计划如何整合运营以实现这些利益?

  • SolarPower Corporation 提议收购 GreenTech Inc. 的三大主要优势是什么,这些优势如何与公司的运营和财务相关?

  • 有多少监管机构正在审查该并购,他们在评估中关注的具体问题是什么?

  • SolarPower Corporation 和 GreenTech Inc. 可能需要做出哪些让步或剥离行为以获得欧盟委员会对并购的批准,这些让步可能会如何影响公司的运营和市场地位?

  • 美国联邦贸易委员会对 SolarPower Corporation 提议收购 GreenTech Inc. 的主要担忧是什么,这个问题将如何影响可再生能源存储市场?

第二步:问题筛选

一旦生成问题,下一步是过滤并提取最有用的子集。首先需要对所有生成的问题进行去重处理。由于不同的兴趣点可以使用相邻的信息点,并可能产生重叠的问题,因此去重处理是必要的。

接下来,我们采用 LLM 作为评判者,以确定问题与底层文本的相关性。这一过程旨在确保问题能够完全依据段落中的信息得到解答。之后,我们将所有相关问题重新改写为对话形式。最后,我们还引入另一道筛选,以分类并剔除那些可能过于笼统的问题。

首先,我们对问题进行去重处理,然后以 LLM 作为评判者,进行一系列的筛选步骤。

图 2. 深入了解步骤二,筛选问题

第三步:融入人物风格

在前两个步骤中,我们创建并筛选了多样的提问。最后一步是为所有提问融入人物的写作风格。

我们利用 LLM 按照所有角色的语气重新编写问题。

图 3. 深入分析第二步的一部分,生成句法变体

利用 LLMs(大型语言模型),我们首先根据给定的人物描述制定写作风格。接着,使用这些写作风格对问题进行重新编写。

写作风格样本

Padma 的写作风格以清晰、精准和正式的语调为特征。她的写作方式直接而自信,使用简单且简洁的语言传达复杂的思想。其句子结构严谨,逻辑紧密,体现了她的分析思维和对细节的关注。她避免使用情感语言、个人意见或修辞手法,而是专注于以清晰客观的方式呈现事实和论点。她的写作毫无歧义,每个观点都经过证据与推理的仔细支撑。整体语调专业且权威,能够赢得读者的尊重和关注。尽管她的写作可能在创意上不够吸引人或缺乏说服力,但在信息传达和公司诉讼背景下实现目标方面却极为有效。

Aaron 的写作缺乏深度与剖析,常常只是简单地触及复杂问题的表面。其句子简短且结构简单,反映出他在英语语言方面的有限能力。尽管他竭尽全力,语法、句法和用词方面的错误仍然频繁出现。为了弥补信心不足,Aaron 经常采取耸人听闻的手法,夸大或扭曲事实以吸引更多关注。他的语气显得犹豫不决,仿佛对自己缺乏信心。总体而言,Aaron 的写作风格更像是小道消息记者,而非严肃新闻记者。

在这个三步骤流程的末尾,我们得到了如下问题:

  • 鉴于现行的监管框架,为了确保获得相关机构的批准,拟议的合并可能需要遵守哪些额外的政策指令?

  • 关于 SolarPower 和 GreenTech 的合并,目前有哪些具体方面正在被相关监管机构审查?

  • 如果在大规模收购后 R&D 中心保持独立,GreenTech 的专家们会被解雇吗?

这些问题在其特定部分上有隐含的真实标签,可以用于评估各种检索流程。如果您有兴趣了解更多细节,或想学习如何改进并定制该流程以适应您的用例,请参阅这个 Jupyter Notebook。(https://github.com/NVIDIA/NeMo-Curator/tree/main/tutorials/synthetic-retrieval-evaluation)

收获

合成数据生成是企业推动其领域特定生成式 AI 应用的关键工作流程。新的 Llama 3.1 405B 模型,在与 NVIDIA Nemotron-4 340B 奖励模型配合使用时,可以生成合成数据,从而使企业能够构建更加精确、领域特定的定制模型。

RAG 管道 (pipelines) 在大型语言模型 (LLM) 生成基于最新信息的可靠回应方面具有重要作用,而回应的准确性则依赖于管道的质量。上述的合成数据生成工作流程可以帮助企业评估 RAG 的性能。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值