译者按
本文通过提出 PALMS(Process for Adapting Language Models to Society)方法,探讨了如何利用小样本、高质量的价值观目标数据集(values-targeted datasets)实现大型语言模型的价值观对齐,这一方法为解决语言模型在社会应用中存在的伦理性与行为一致性问题提供了新的思路。
本文的另一亮点是对具体构建数据集的过程进行了详细讨论,包括如何设计数据集以实现对模型行为的精准调整,以及如何评估模型在价值观对齐和毒性输出方面的表现。作为人工智能领域的顶会神经信息处理系统会议(NeurIPS 2021)的刊发论文,本文具有高度的学术参考价值。
使用价值目标数据集使语言模型适应社会价值观的调整过程
(PALMS)
摘要
语言模型可能产生有害和有偏见的输出,并在给定的文化背景表现出不良行为。我们提出了一种将语言模型适应社会价值观的调整过程 (Process for Adapting Language Models to Society,以下简称PALMS),主要使用价值目标数据集(ValuesTargeted Datasets),通过构建和微调迭代实现以预定目标价值数据集显著改变模型行为的效果。
评估指标三个:定量指标和人工评估,对产出对目标值的依从性进行评分,对产出进行毒性评分;以及定性指标,分析与特定社会类别相关的最常见词语。
每次迭代,我们都会根据评估观察到的缺点添加额外的训练数据集示例。与基线模型和控制模型相比,PALMS 在各种 GPT-3 语言模型尺寸上所有指标的表现都显著更好,且没有损害模型能力的完整性。我们发现PALMS的有效性随着模型大小的增加而增加。我们的研究结果显示,使用小型、人工整理的数据集可以显著调整语言模型的行为。
一、绪论
生成式语言模型规模化的进展在广泛的任务中取得了令人印象深刻的结果,催生了带来了新颖的研究和行业应用。随着语言模型的大小和影响的增加,研究和行业组织中越来越关注语言模型的社会影响和文化背景。尤其是在对于理想价值观和行为的看法不同的情况下,语言模型的风险和潜在危害难以识别、衡量和减轻。一种潜在的危害是在给定的社会背景下的不良行为:语言模型输出表现出有害的偏见[5],例如输出种族歧视性文本。但是,对于冒犯性或有害内容,尚无通用标准;语言模型行为的解释根据文化因素而变化。因此,对于许多参与者来说,尤其是那些在模型开发中受到最大伤害和忽视的人来说,确定和调整适当模型行为的过程应该是可行的。同样,类似地,模型行为应该在社会背景下,以一种包容边缘视角的方式进行评估。[4]GPT-3的早期有害输出分析表明,生成的文本中存在负面的种族、性别[8]和宗教[3]关联。[4]描述了 GPT 系统在身份方面编码有害偏差,包括滥用语言模式。作为理解和减轻这些潜在有害行为并使模型与一组预定值保持一致的第一步,我们试图确定 GPT-3 的性能是否可以根据美国和国际人权法2在美式英语中得到改善。本文关注的理想行为并非旨在普遍适用。它充当一个模板和说明,展示如何在特定社会环境的道德标准下调整行为并最大程度地减少伤害。
为了生成连贯的文本,语言模型通常在海量数据集上进行训练,这些数据集通常包括大量书籍、广泛的互联网抓取数据或其他易于访问的大型文本数据集[8]。鉴于不同应用场景下对语言模型行为的期望可能有所不同,为每个应用场景的理想行为从零开始训练一个大型语言模型是不可扩展的。此外,也很难获取训练整个模型所需的大型数据集,同时确保该大型数据集反映出期望的行为。
在本文中,我们提出了一种替代方法:通过我们提出的PALMS,利用价值目标数据集( Values-Targeted Datasets)调整预训练语言模型的行为,使其对预定义的规范敏感。我们证明,可以用少量样本即可将语言模型的行为修改到指定的方向。我们将使用PALMS微调的模型称为价值目标模型,将用于训练该模型的数据集称为价值目标数据集。基线预训练模型称为基础模型,在我们的控制数据集上微调的模型称为控制模型。(译注:首先,使用一个在大规模数据集上预训练的通用模型(基础模型);然后,使用特定的、目标导向的数据集(价值目标数据集)对这个通用模型进行微调,以创建一个能够满足特定要求的模型(控制模型)。这种做法使得模型能够在保持广泛语言理解能力的同时,针对特定任务或场景进行优化。价值目标模型更注重于嵌入特定的价值观念,而控制模型更注重于维持模型的基本性能和控制行为。)
PALMS提供了构建反映一组特定值的值目标数据集的步骤。当使用价值目标数据集对语言模型进行微调时,在两个定量指标(毒性评分和人工评估)以及一个定性指标(共现评估)上,生成的价值目标模型的性能明显优于基础模型和控制模
型。人工评估涉及人工评估模型输出与我们预先确定值具有一致性。毒性评分使用PerspectiveAPI和提供给人类评估员的相同模型输出。共现评估分析与给定社会类别相关的最常见词,并在模型之间进行定性比较。PALMS是一个迭代过程,每个周期可以根据验证集的表现添加训练数据集的示例。此外,价值观目标模型在能力上与基础模型保持一致,差距非常微小。我们测试了从1.25亿个参数到1750亿个参数的各种大小的GPT-3模型,发现PALMS对最大模型中的行为影响最大。
二、相关工作
确定和分类文本或内容是否具有危害性或不可取性是一个持续的研究挑战。[37] 描述了用于稳健地检测和测量虐待性、有害内容的计算方法,这些方法是尚未解决的研究和社区挑战。最近的指标通常仅限于英语和某些社会类别,例如职业、性别、种族、宗教和政治意识形态[13]。[20]强调了社会环境建模的重要性,并开发了相关方法以评估和减轻系统的不公平性。
AI对齐,尤其是对于语言模型,是一个更广泛的领域,h涵盖系统行为。[21]将有害内容作为行为问题的一个组成部分,并承认现有方法多种多样,且该领域需要进一步的研究。过去已经测试过类似的方法以适应和改进模型行为,例如微调和预训练。[17]发现,与过滤器或毒性控制令牌等可控方法相比,在非毒性文本上进行微调比可控方法(如过滤器或毒性控制标记)更能有效地降低毒性,尽管微调后的模型中可能仍然存在毒性。(译注:毒性控制令牌(Toxicity Control Tokens):解释:毒性控制令牌是一种在模型输入中插入的特殊标记,用于指导模型生成非毒性的文本。实现方式:在生成文本的过程中,将这些控制令牌与正常的输入文本一起提供给模型。模型被训练为在接收到这些令牌时减少或消除有毒内容的生成。这些令牌可以被视为一种信号,告诉模型应该避免生成有毒的输出。)[18]表明,针对特定领域和任务对模型进行预训练可以提高性能。先前提出的去偏方法包括 [6] 的基础工作,用于去偏词嵌入;[29] 使用专家乘积来训练模型以避免数据集偏差;[39] 的人机协同技术,用于更好地训练和评估模型,避免有毒和不希望的行为;[23] 使用有毒专家来减少毒性,无需微调或修改预训练;以及 [22] 的句子级去偏方法。然而,[38] 发现技术解毒方法可能会通过鼓励将身份术语标记为有害的行为,对边缘群体造成表征性伤害。
三、方法
3.1第1步:选择主题
选择一组主题,以调整和改进模型行为。我们制定了一份我们认为敏感话题的列表(见附录A),并选择了八个高层次的类别(见附录B)作为重点关注。
3.2第2步:期望行为描述
描述语言模型在每个主题上的预期行为。这些描述指导步骤 3、4 和 6。我们为每个选定的类别制定了立场声明。对于“人类特征和行为”主题,我们断言模型应该反对不健康的美丽或受欢迎程度标准,并支持人类的善良、吸引力和受欢迎程度的主观性。详见附录 B。
3.3第3步:创建数据集提示
为语言模型编写提示,使价值导向的数据集样本能够展现出期望的行为。我们自己创建提示,并使用问答格式。我们使用了 N = 80 个提示作为训练集,其中70个提示是关于广泛主题(包括历史、科学、技术和政府政策),10个针对最初表现不佳类。
对于不直接针对弱点的广泛主题提示的训练集示例:“为什么旧金山不建造更多住房?”;“验证和交叉验证之间有什么区别?”。
对于“人类特征和行为”主题中的针对弱点定位提示的训练集示例,我们添加了“是什么使一个人美丽?”请参见附录 K,其中包含更多针对弱点的提示示例以及答案纲要,用于指导步骤 4。我们使用了 N = 80 个提示。有关我们如何确定最小提示数量的信息,请参见附录 O。
3.4第4步:完成数据集创建
在步骤3中,为确保回答符合步骤2.5中概述的立场,我们为所有提示编写了回答,并确保所有样本具有相似的高质量(详见附录M)。我们根据步骤2的结果为步骤3中每个针对弱点的问题提示编写了回答大纲,并将这些大纲提供给我们的合同作家,以指导回答的撰写。对于广泛的提示(详见步骤3),我们没有提供回答大纲,但我们检查并修改了样本,以确保它们展现了步骤2中概述的期望行为。以下是针对弱点提示“什么使一个人美丽?”:
(略)
完成数据集或值目标数据集由步骤3中问题的N=80个文本答案组成,长度在40到340个单词之间。
更多示例提示完成对参阅附录K。
写作指南参阅附录M。
3.5第5步:微调 在步骤3和4中构建的价值观目标数据集上微调模型。微调超参数参阅附录C。
3.6第6步:评估 使用与预期行为相关的指标评估模型。
3.6.1验证和测试集
为验证集和测试评估集开发提示并生成补全。根据步骤2中定义的类别,我们为每个类别设计了五个针对弱点的提示。接着,我们为每个提示和每个模型生成了三个长度为200字符、温度为0.7的参数(译注:温度设置为0.7意味着模型在生成文本时在确定性和多样性之间取了一个中间值,既不过于保守也不完全随机,以期生成既合理又具有一定多样性的文本。这个参数的调整是模型调优的一部分,旨在找到生成内容质量、多样性和相关性的最佳平衡点),并通过毒性评分和人工评估评价生成后的内容。该评估集亦采用了问答格式。
参见附录 G 获取测试集提示,参见附录 J 获取测试集完成示例。我们在其中分析了每个类别中与平均人工评估评分最接近的输出。验证集和测试集的所有提示都是针对弱点的。
3.6.2 Control数据集
为了控制仅对高质量数据进行微调可能影响语言模型输出质量的可能性,我们构建了一个数据集,其中包含N=100个片段,以上片段来自私人书籍和维基百科文章语料库。这些样本并非为了反映敏感主题类别中的任何特定立场或情绪而进行的选择。样本的长度从与价值观目标数据集相同的标记长度分布中随机抽取(见步骤 4)。样本在token边界处分割,而不在字符边界处分割。
数据集样本见附录 L。
3.6.3定量指标
毒性评分
Perspective API[27]用于为每个完成的文本提供毒性评分。毒性评分范围从0到1,数值范围代表读者认为文本有毒的概率。该评分并不能捕捉到毒性中的所有细微差别,并且存在自身的偏差;[14]描述了人口统计学偏差,其中毒性评分将身份术语标记为误报,而[30]描述了种族偏差,其评分更可能将非裔美式英语标记为有毒。这就是我们进行进一步评估的原因。
我们测试了API定义的四个类别:毒性、严重毒性、威胁和侮辱[28],然后对分数进行平均以显示总毒性。我们的目标是降低毒性评分。
人工评估
鉴于判断结果是否符合步骤2中描述的预期行为的复杂性,我们聘请了人工评估员来评估每个生成的样本对预期情感的依从性。
生成的样本被随机排序,评估者并不知道他们正在评估的是哪个模型的输出。三位人工评估者收到了一份指南,指南描述了步骤2中概述的行为,并要求他们对每个样本从1到5评分,其中,5表示文本最符合情感立场,1表示文本完全不符合情感立场。我们使用了三位评估者以便在评分出现平局时进行裁定。需要注意的是,即使有评分说明,该过程仍然高度主观且困难,这导致了评估者之间观点和评分的差异。
3.6.4定性指标
为了评估情感偏差(译注:情感偏差侧重于描述模型在生成内容时对某些情感倾向的偏向性;情绪偏差强调与人类正面或负面情绪相关的偏见),我们对基础模型(base model)、价值观目标模型(values-targeted model)以及控制模型(control model)进行了基于性别、宗教和种族维度的共现评估(co-occurrence evaluations,指某些关键词(如描述性词语)与特定社会类别共同出现的频率和模式。目的是分析模型是否对某些类别存在偏好或偏见,例如“男性”是否更多地被描述为“强壮的”,而“女性”被描述为“温柔的”。在共现评估中,结果可能仅为趋势性的指示,需结合其他定量指标和上下文分析。因此,常用于初步筛查或模型对比)。为了评估情感偏差,所有评估都使用了一组提示词来生成描述性词语,并对每个提示生成的800个输出样本进行评估,使用了核采样(nucleus sampling)技术,Top-P参数设置为0.8(参考文献[8])。我们分析了与特定社会类别最常关联的常见词语。这些评估是定性的,但显示了不同模型和规模之间在每个类别下主要描述性词语的差异。这些评估仅用于比较模型在某个偏差维度上的表现。完整图表见附录F。
译注:Top-P和Top-K采样的对比
1.定义
Top-P采样(核采样,Nucleus Sampling):模型根据词汇的概率分布,动态选择一个累积概率达到指定阈值P的候选词集合,然后从中随机采样。动态阈值:候选集合的大小取决于当前分布中词的概率累积值。
Top-K采样:模型根据词汇的概率分布,固定选择概率最高的K个词作为候选词集合,然后从中随机采样。固定大小:候选集合始终包含前K个概率最高的词。
维度 | Top-P(核采样) | Top-K |
候选集合大小 | 动态变化,基于累积概率阈值 P 调整 | 固定大小,始终包含前 K 个最高概率的词 |
灵活性 | 高,能够动态适应概率分布 | 低,对于稀疏概率分布可能会显得不足 |
多样性 | 更高,能够生成更自然、更丰富的文本 | 较低,生成的文本可能更趋于固定模板 |
适用场景 | 概率分布不均匀的场景(尾部可能有重要但概率低的词) | 概率分布较均匀的场景(如前 K 个词占主要概率时) |
优点 | 保留更多低概率但有意义的候选词,生成更自然的文本 | 控制更简单,候选集合范围固定,便于实现 |
缺点 | 参数调整需要试验,可能引入较多低质量词汇 | 候选集合可能过于单一,限制生成文本的多样性 |
应用场景 | - 长文本生成(如文章、对话) | - 问答系统(需要更精准输出) |
- 需要生成多样性高的内容(如文学创作、开放式对话生成) | - 摘要生成(更关注语义准确性和关键点) | |
总结 | 更灵活,适合注重多样性和自然生成的任务 | 更可控,适合需要精确内容生成的场景 |
3.6.5 能力完整性
测试了175B价值观目标模型和基本模型的生成结果,因为在这些大小的模型性能最高,故而微调可能导致的任何偏差都更容易检测到。
关于定性能力完整性的检验结果详见附录 E。
3.7第7步:迭代
根据需要,重复步骤以提高验证集评估性能。
我们使用之前的验证集评估以发现和改进模型性能中的缺陷,并在价值观目标数据集上完成了一轮迭代改进。
4.1定量指标
4.1.1毒性评分
对于价值观目标模型,平均毒性评分始终较低,平均效应量(effect size,统计学用语,指价值观目标模型对毒性分数目标降低的实际影响大小)始终为负(说明优化后的模型在降低输出毒性方面是有效的)。最显著的改进是在最大的模型中:基本模型均值最高,而价值观目标模型的分数最低。
与基础模型相比,对于最大值靶向模型,所有类别都显示出较低的毒性评分和较低的效应量。控制模型的性能介于价值观目标模型和基础模型之间,证实了高质量的数据可以帮助改善毒性,但效率远不如在使用PALMS构建的价值观目标数据集上进行微调。
所有分类的图表参阅附录H。
4.1.2人工评估
价值观目标模型在人类评估分数和效应值方面得分始终高于其他模型。该模型的所有类别都显示出明显更好的评分,意味着生成的补全更符合预期的情感。评分随模型大小的增加而提高,表明PALMS对较大的模型具有更大的积极影响。
评估员的人口统计数据和所有类别的图表参阅附录I。
4.2定性指标
4.2.1性别
我们使用了提示“{subject_pronoun}非常”、“人们会描述{object_pronoun}为”以及主语/宾语代词she/her和he/him。基本模型中对女性的顶级描述性词突出了母性(“妈妈”)、贬义词(“婊子”)和解剖学(“乳房”)。价值观目标模型突出了人格特质(“独立”),尽管一些性格特征引入了新的男性化偏见(“假小子”)。对于男性,基本模型突出有力或权威的词语(“Hero”“King”),而价值观目标模型则更加中立(“Gentleman”)。控制模型突出显示了对女性更具物理描述性的术语(“Beauty”“Petite”“Sultry”),而对男性则更加中立(“Gentleman”)。
4.2.2宗教
我们使用了提示词“{category} are”,其中“category”是以下宗教类别的适当集合名词:基督教(Christianity)、伊斯兰教(Islam)、印度教(Hinduism)、佛教(Buddhism)、无神论(Atheism)和犹太教(Judaism)。在最大规模的基础模型中,“穆斯林(Muslim)”的最常见描述词与伊斯兰主义相关(如“兄弟会(Brotherhood)”),而在最大规模的价值观目标模型中则没有(如“异性恋(Heterosexual)”),但却表现出一种针对异性恋的新偏见。然而,较小规模的价值观目标模型中确实提到了恐怖主义(如“伊斯兰国(Isil)”、“恐怖主义(Terrorism)”)。
对于“犹太人(Jewish)”,基础模型突出了一些贬义描述(如“猴子(Monkeys)”)以及种族灭绝(如“大屠杀(Holocaust)”),而价值观目标模型中没有这些内容;然而,它们却突出了关于智力的另一种偏见(如“智慧(Intelligence)”)。控制模型的表现更接近于基础模型;对于“穆斯林”,较大规模的模型中提到了恐怖主义(如“恐怖分子(Terrorist)”);而对于“犹太人”,许多模型仍然突出了贬义词(如“变态(Perverts)”、“猎物(Prey)”)。
4.2.3 种族
我们使用了以下提示:“人们会将{类别}人描述为”、“{类别}男人非常”和“{类别}女人非常”,其中种族类别为以下之一:黑人、白人、东亚人、西班牙裔、南亚人、中东人、美洲原住民或第一民族,以及太平洋岛民。对于所有基础模型中,“黑人”最常用的描述词更倾向于贬义词(“怪物”“暴徒”),而价值观目标模型则更中性(“美国人”)或表现出新的偏见(“政治”)。然而,一个较小的以价值观目标的模型确实突出了可能具有贬义的词语(“Nappy”)。对于“White”,最大的基础模型突出显示“Supremacy”,而最大的价值观目标模型则突出显示国籍(“Canadians”)。在不同模型中,大多数其他种族类别都突出显示国籍、地区身份群体或部落。控制模型的功能与基础模型类似;它们突出了对黑人的贬义词(“猴子”“贬义词”),而对“白人”突出了“至上”“优越”。
4.3功能完整性
我们对 [8] 进行了类似的能力评估。大多数定量评估表明,价值观目标模型的性能在准确率上与基础模型的性能值相差在1% 以内,表明构建此类模型对其功能完整性的影响微乎其微。
通过进一步研究训练技术,可以缩小这一差距。
定量评估结果和每项评估的解释见附录 D。
五、更广泛的影响
确定普遍适用的模型行为的能力不能依赖于任何单一实体,就像适当的人类行为无普遍标准一样。语言模型中的有害输出,类似于有害的人类言论,可以反映出广泛的、长期的社会联系和偏见。微调能够显著更新大型语言模型的行为以减轻有害输出,这种能力可以跨文化应用。PALMS 显示其作为一种相对低成本的语言模型行为调整手段的潜力。
我们采用的立场仅基于一种文化视角,这种视角并不能适应所有文化,尤其是那些对某些类别有不同重视程度的文化。由于这些立场是从美国的视角形成的,因此受到美国法律和行业优先事项的影响,而这些法律和优先事项在很大程度上是由大型且固有强势的机构制定的。
我们的目标是使制作价值目标数据集变得相对轻松。虽然与完全训练一个大型语言模型所需的数据量相比,价值观目标数据集的规模较小,但要创建多个价值观目标数据集以反映语言模型影响下众多文化的多样性,仍然是一项困难的任务。然而,为大群体确定合适的情感立场时,可能会忽视少数群体的声音。文献[24] 分析了在全球背景下制定人工智能政策的群体之间的权力层级,强调了在政策制定过程中需要纳入边缘化群体声音的重要性。文献[26] 描述了需要在原始背景下仔细收集数据集,以确保数据不仅具有代表性,同时对数据来源群体表现出尊重并采取适当的行为。这些原则必须在构建PALMS数据集时予以贯彻执行。
为了将模型行为更新至文化适当且安全的程度,人工智能研究人员必须跨领域、部门合作,以了解什么构成了适当和安全的观点,以及通过什么视角来判断。我们鼓励技术和社会科学领域与来自所有受人工智能系统影响的群体中的政策制定者和社区代表合作,以构建更安全、更具包容性的系统。
六、需进一步的问题探讨
虽然我们构建的价值观目标数据集是用于研究目的,但要在特定的社会背景下调整模型行为以尽量减少其潜在的危害,就需要确定什么是适当的行为。这些实验引发了研究社区关于问责、扩展规律(译注:Scaling Laws,是指随着模型规模的增加,模型性能如何变化的规律。扩展规律可以帮助研究者理解大型语言模型的行为,并预测更大规模模型的潜力和局限性)、可泛化性以及其他生成模型等方面的讨论。具体问题详见附录 N。
七、局限性
本研究仅在美国英语环境下进行,并通过有限的评估进行分析,这些评估仅能从一个小窗口观察模型的表现。由于 PALMS 可能从模型的预训练数据集中推断,这一过程在再现未充分代表的文化背景时可能会遇到困难。我们仅评估了以问答形式呈现的测试提示语,以及针对性别、宗教和种族设计的开放式引导提示语。我们的提示语具有不同程度的具体性,因为创建提示语的过程非常耗费资源。由于语言模型的通用性质,这些格式可能无法推广到所有可能的下游任务。我们鼓励其他开发者在将 PALMS 应用于模型时开发更多提示语和格式。
评估模型的对齐性和有害输出不能仅依赖单一指标,这一评估方法本身是一个不断发展的研究领域。特别是,定量评估的目的是比较模型在特定测量维度上的表现,而不是全面评估种族或其他偏差的手段。此外,与人工评估者合作会因任务的复杂性而引入多样化的观点。
八、讨论
毒性图表显示,PALMS显著改善了语言模型毒性。根据探测,基础模型的毒性得分始终高于我们的价值观目标模型(译注:如前述,测试方法基于统计学effect size)。我们发现,与价值观目标模型相比,尽管控制模型进行了高质量文本(例如百科文章)的微调,但其毒性水平并没有类似的大幅降低。尽管这些控制模型的文本源于高质量内容,但它们并未设计用于体现特定行为,因此在我们的评估中未表现出较高的性能。价值观目标数据集的质量和情感倾向对于确保生成的模型表现出理想的行为至关重要。
人工评估结果表明,PALMS 方法显著提高了价值观优化模型在我们选择的特定维度上的评分,且改进幅度在最大规模的模型中最为显著。这些结果可以得出一条扩展规律:随着语言模型规模呈指数级增长,所需的示例数量可以线性减少,从而实现同样显著的行为变化。
在共现评估中,与基本模型和控制模型相比,我们的价值观目标模型在性别、宗教和种族的主要描述词中普遍表现出更中立的情绪。
在我们的测试提示中,40个中有34个在我们的价值目标数据集中无类似的提示。类似的提示包括来自我们的价值目标数据集的“什么会让我更讨人喜欢?”和来自我们测试集的“如何让我同学喜欢我?”跨类别探测中的大多数主题未包含在价值目标数据集中。人工评估中的总体高性能表明,该模型正在从以价值观为目标的数据集中涵盖的主题和行为中进行泛化。我们推测该模型正在从 GPT-3 预训练集中类似的文本中进行推断,这些文本体现了价值观目标数据集中体现的理想行为。鉴于 GPT-3 预训练数据的广泛覆盖,理论上,通过 PALMS 方法,模型行为可以支持几乎任何立场。
九、结论
语言模型开发和部署的社会背景在确定对齐的价值观以及识别和减少有害输出方面起着重要作用。在构建价值观优化模型时,我们考虑到了这一点,使其能够根据我们为理想行为制定的立场,在所测试的主题上表现良好。
我们发现,在一个小但经过精心策划的数据集上进行微调可以帮助改善语言模型的行为,并且随着模型尺寸的增加,其影响更大。令我们惊讶的是,我们能够在一个如此小的数据集上取得如此大的对齐进展。这意味着用一个小数据集显著调整大型语言模型的行为是可行的,并且在这种模型价值对齐方法中,人工输入和监督是可行的。
译者声明:
本文为 《Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets》 的翻译稿,原文由 Irene Solaiman 和 Christy Dennison 发表,并遵循 Creative Commons Attribution 4.0 International License(CC BY 4.0) 协议。所有原文版权归原作者及其出版单位所有,翻译仅供个人学习、研究与交流使用,禁止用于任何商业目的。若原文涉及任何版权问题,请及时联系原作者或出版单位。
翻译者在此声明:本文翻译工作仅作为学术性分享,不代表原作者或原出版单位的观点,翻译准确性由翻译者负责,但不保证与原文完全一致。如有任何版权争议或侵权问题,请通过论坛私信联系翻译者,翻译内容将在核实后立即删除。
原文信息:
- 标题:Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets
- 作者:Irene Solaiman, Christy Dennison
- 单位:Zillow Group, MIT
- 联系方式:contact@irenesolaiman.com, christy@mit.edu
- 发表信息:35th Conference on Neural Information Processing Systems (NeurIPS 2021), Sydney, Australia