大模型数据生成综述2024

在这里插入图片描述

生成数据的步骤:generation,curation(管理) ,evolution

1.generation

在这里插入图片描述
数据生成的一个整体流程

1.1 Prompt Engineering and Multi-step Generation

1.1.1prompt的三个关键要素:
任务规范

包括角色扮演格式澄清知识增强,(比如使用文本类型、标签类型和标签标记语言定义语言的三元组),如果需要额外的领域知识,可以利用知识图谱和LLMs获取领域主题的上下文知情提示

条件提示

为了让合成的数据多样性,所以使用条件提示,明确具体地向LLM传达所需的特定数据类型,条件提示的核心设计通过指定一些condition-value pairs来描述目标对象。目前关于条件提示的研究主要集中在以下两个主题:
调节范围: 调节范围描绘了我们用来表征目标数据的维度。早期研究(Gao et al., 2023a;Ye et al., 2022a,b) 采用了一种基本的输出条件提示策略,利用特定的标签引用分类任务作为条件变量。这背后的基本原理主要是为了维持种类平衡和覆盖面。但是,这种策略不适用于缺少明确类别标签的数据。Yu et al. (2023b) 的后续工作认为,由于可能属性组合的数量众多,具有更细粒度属性(例如,主题、长度和样式(Xu et al., 2023b))的条件提示可以导致更多样化的生成,也适用于开放式数据。此外,Eldan 和 Li (2023) 还要求每一代任务将三个随机选择的词纳入生成的故事中。这种方法也被证明可以显着增强生成数据的多样性,通过在提示中添加“创造性随机性”,将重点从输出的启发式特征转移到更加结构化和有针对性的调节机制(Eldan and Li,2023)。
调节值:定义条件范围后,为每个条件分配具体值。

情景学习

提供几个演示,隐含的人类指导。由于LLM具有上下文学习能力,给他们一些示例,可以提高忠诚度。但是会降低多样性(为了解决这个问题,有选择专注于特定方面的示例,还有根据余弦相似性,将特定一致的样本作为演示示例进行优先级排序,或者使用量化的影响分数来选择信息量最大的样本指导生成过程等)。

1.1.2multi-step generation

由于缺乏足够的推理能力,期望LLM在单个引用中生成整个所需的数据集是不现实的,尤其是在针对具有复杂结构或语义的数据时

  • 解决方案:多步骤生成,通过该步骤生成,整个生成过程被手动分解为一系列更简单的子任务

    每个中间输出 D i D_i Di都是使用模型 M i M_i Mi 生成的,由 p i p_i pi 提示,用于子任务 T i T_i Ti。然后,这些输出可能会被用于后续几代(可以通过单独的指令针对性的加强每个内部组件 D i D_i Di之间的一致性)。通过手动调度生成过程,我们隐含地将 LLM 的推理路径与人类先验知识对齐。具体来说,任务分解常用的策略有两种:样本分解和数据集分解,主要目的是提高不同尺度的合成数据质量。

样本化分解(Sample-Wise Decomposition):

多步生成的一个典型用例是在处理多文本数据(如对话和实体-关系三元组)时解决长文本处理和逻辑推理的挑战。在这种情况下,一种直接的方法是将样本分成更小的块,每次只生成每个样本的一部分(Li et al., 2022;Ye et al., 2023;Wang等人,2013)。
D g e n = D 1 , D 2 , . . . , D k D_{gen}={D_1,D_2,...,D_k} Dgen=D1,D2,...,Dk
(这个方向目前的研究还是开放性的)

多步骤生成的一个典型用例:

  • 处理多文本数据(如对话和实体关系三元组)时长文本处理和逻辑推理的挑战。在这种情况下,一种简单的方法是将样本分成较小的块,一次只生成每个样本的一部分.
数据集分解(Dataset-Wise Decomposition)

生成一系列这样的数据,最后形成一个良好多样性和领域覆盖率的数据集,需要长期的调度调整多步骤生成每个阶段使用的条件,确保整个数据集朝着正确的方向增长。
> 具体而言,S3 (Wang et al., 2023b)根据在先前生成的数据上训练的下游模型的性能,在每次迭代中针对最常被错误标记的类别
> ,Honovich et al. (2023b); Shao et al.(2023)利用“生成-然后扩展”范式,相应地增强了整体数据集的多样性;
> , Honovich et al. (2023b); Shao et al.(2023)还利用特定的数据结构来对数据生成的路径进行建模,比如将域空间(domin space)建模为树形结构,并不断优化生成的数据以及树遍历,促进生成数据的专业化和领域覆盖率。

2.数据管理

由于幻觉问题,LLM不可避免地会产生带有错误标签的损坏样本。
其次,包含模棱两可的描述的无效提示可能会诱使模型生成不相关或冗余的样本。

在没有适当处理的情况下直接使用这些低质量数据可能会产生重大的负面影响。为了解决这个问题,已经研究了大量的数据管理方法,这些方法主要分为两个主要群体,即高质量样本过滤标签增强

2.1高质量样本过滤

有两个指标:

基于启发式指标的方法

关键步骤是根据学习动态设计适当的标准,例如置信度分数(Seedat et al., 2023)、影响函数和生成能力。还有采用估计的生成概率来识别与所需标签最相关的样本。丢弃置信度低和不确定性低的样本。
其他一些方法假设干净的样本在不同条件下倾向于保持相似的预测,并采用交叉条件一致性进行过滤。具体来说,这种一致性可以在LLM和下游分类器之间、多次执行之间、或相邻数据点之间。还有利用LLM强大的文本理解能力来评估不同样本的质量并过滤掉得分低的样本。

样本重新赋权

重新加权方法认为所有数据都很有价值,但重要性各不相同。因此,在下游利用过程中,他们为正确注释或有影响力的样品分配了更大的权重。例如,SunGen (Gao et al., 2023a) 提出了一种无需人工注释的自适应双级重加权算法。FewGen (Meng et al., 2023)设计了一个判别性元学习目标,用于调整样本权重并划分不同标签之间的细微差别。

2.2标签增强

标签增强方法努力纠正生成样本中可能存在的错误注释。由于确认偏见,LLM 识别自己的错误是不现实的。为了解决这个问题,最近的工作要么依赖于人为干预,要么采用学生模型进行无人性知识蒸馏。

人为干预

标签精炼的一个简单策略是包括人工努力重新注释损坏的样本(Chung 等人,2023a;Wang et al., 2021;Pangakis 等人,2023 年)。Wang et al.(2021)提出积极选择置信度最低的样本进行人类重新标记。Pangakis et al. (2023) 和 Liu et al. (2022a) 进一步强调了人工审查的重要性,并建议比较来自人类和由同一代码本指导的LLM的注释。尽管这些方法很简单,但可能会导致相当大的标签成本,并且在实际部署中可能是不现实

辅助模型

为了降低标签成本,开发了一种更实用的无人范式,该范式涉及知识蒸馏和标签精炼的辅助学生模型(Xiao et al., 2023;Zhao et al., 2023a;Saad-Falcon 等人,2023 年)。这些方法依赖于学生模型的弱监督能力,并假设从LLM教师那里提炼出来的学生可以产生更好的标签。开创性的工作 FreeAL (Xiao et al., 2023) 提出了一个协作框架,其中利用学生模型从弱注释中提取高质量的任务相关知识,并作为反馈 LLM 用于标签精炼。MCKD (Zhao et al., 2023a) 设计了一种具有数据拆分训练和跨分区标签的多级蒸馏管道,以避免在嘈杂的标签上过度拟合。随着LLM的能力和可用性的不断扩大,辅助学生模型的纳入将发挥更关键的作用,作为一种具有成本效益的替代人工干预的替代方案。

3.数据评估

在使用生成的数据之前,重要的是评估数据的质量和应用有效性,以确保其对下游任务的价值。目前主流的评价方法大致可分为直接评价法间接评价法两大类,分别评价D_gen的质量,以及通过其对下游任务的有效性来评价D_gen的质量。

直接评估

数据真实性

理想情况下,可以使用现有数据集的地面实况(如果有)轻松实现对 LLM 生成结果的自动评估(Zhu et al., 2023)。然而,对于开放式数据,基于人工的评估是必要的。一个简单的想法是将一些生成的样本提供给人类专家,然后他们将确定它们是否正确,据此我们可以估计整体生成质量(Wang et al., 2023e)。从理论上讲,样本量越大,估计结果就越准确,但其成本的劳动力也会相应更高。为此,可以利用可靠的辅助模型代替人类专家对生成的数据进行更全面且具有成本效益的评估(Chung 等人,2023b)。考虑到大多数模型只能处理有限长度的内容,适当的信息提取可以减轻辅助模型的负担,并有助于更精确地预测样本是否包含事实错误(Lee et al., 2022)。

数据多样性

数据多样性。数据多样性的量化主要采用词汇统计和样本相关性计算。词汇统计(Yu et al., 2023b),例如词汇量和N-gram频率,提供了一种简单直观的方法。但是,他们很难捕获数据集的语义信息。样本相关性的计算有效地弥补了这一限制。最常见的样本相关性度量是基于余弦相似性(Wang et al., 2023b)和样本距离(Chung et al.,2023b),它可以更好地捕捉数据集的上下文和语义多样性。此外,这些指标还可以用于选择与先前生成的样本更不同的上下文演示e_demo(Wang et al., 2023e),从而导致更多样化的生成结果。

间接评估

基准评估

在生成数据上训练的下游模型的性能也可以在一定程度上反映生成质量(Yu et al., 2023b;Chung 等人,2023b)。具体来说,除了下游模型的专业化能力外,还可以从多个维度评估合成数据的影响。例如,TruthfulQA可以评估模型识别真实声明的能力(Sun et al., 2023);NIV2用于评估模型在多项任务中的语言理解和推理能力(Wang et al., 2023e)。

公开评估

对于开放式基准测试,由于缺乏标准化的答案,因此需要由人工或辅助模型进行评估。为了充分利用辅助模型的偏好输出,设计了多种评估策略,如响应排序(Xu et al., 2023a)、四级评分系统(Wang et al., 2023e)和Elo评分(Bai et al., 2022)。为了进一步降低评估成本,Sun et al. (2023);Xu等(2023a)利用Vicuna提出的基于GPT-4的自动评估框架进行评估。然而,一般的 LLM 可能缺乏足够的知识来完成特定领域的任务,这阻碍了它们提供有效的评估(Bran 等人,2023 年)。因此,收集人工评估数据以微调开源模型以进行评估是现实世界场景中的一项重要实践(He et al., 2023)。其他技术如(Peng et al., 2024, 2023)仍有待进一步探索

Future Directions

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值