LLM Alignment
文章平均质量分 64
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
MusicRL: Aligning Music Generation to Human Preferences
我们提出了MusicRL,这是第一个根据人类反馈进行微调的音乐生成系统。对文本到音乐模型的欣赏是特别主观的,因为音乐性的概念以及字幕背后的具体意图取决于用户(例如,“欢快的锻炼音乐”等字幕可以映射到复古吉他独奏或技术流行节拍)。这不仅使此类模型的监督训练具有挑战性,而且还要求将持续的人类反馈集成到部署后的微调中。MusicRL是一个预训练的自回归MusicLM模型,该模型通过强化学习进行微调,以最大化序列级奖励。原创 2024-11-07 10:15:14 · 12 阅读 · 0 评论 -
ADELIE: Aligning Large Language Models on Information Extraction
大型语言模型 (LLM) 通常无法完成信息提取 (IE) 任务,并且难以遵循 IE 任务的复杂指令。这主要是由于 LLM 未与人类对齐,因为主流对齐数据集通常不包含 IE 数据。在本文中,我们介绍了 ADELIE(在信息提取上对齐大型语言 moDEL),这是一种对齐的 LLM,可有效解决各种 IE 任务,包括封闭 IE、开放 IE 和按需 IE。我们首先收集并构建一个高质量的对齐语料 IEInstruct for IE。然后,我们使用 IEInstruct 上的指令调优来训练 ADELIESFT。原创 2024-10-30 19:48:50 · 124 阅读 · 0 评论 -
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。原创 2024-10-20 11:33:47 · 167 阅读 · 0 评论 -
How do Large Language Models Navigate Conflicts?
在日常沟通中,人们经常接近真相——例如,四舍五入或省略细节——以最大限度地帮助听众。大型语言模型(LLM)是如何处理这种微妙的权衡的?为了解决这个问题,我们使用旨在表征人类行为的心理模型和实验来分析LLM。我们测试了一系列LLM,并探讨了人类偏好或推理时间推理的优化如何影响这些权衡。我们发现,从人类反馈中强化学习可以提高诚实和乐于助人的能力,而思维提示链使LLM倾向于帮助而非诚实。最后,GPT-4 Turbo演示了类人响应模式,包括对会话框架和听众决策上下文的敏感性。原创 2024-04-02 17:40:42 · 95 阅读 · 0 评论 -
ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
ChatGLM是一个免费使用的人工智能服务,由ChatGLM系列大型语言模型(LLM)提供支持。在本文中,我们提出了ChatGLM RLHF管道——一种从人类反馈中强化学习(RLHF)的系统——旨在增强ChatGLM与人类偏好的一致性。ChatGLM RLHF包括三个主要组成部分:收集人类偏好数据、训练奖励模型和优化政策。在将ChatGLM RLHF集成到生产中的整个过程中,我们遇到并解决了几个前所未有的挑战。原创 2024-08-24 21:23:50 · 59 阅读 · 0 评论 -
Foundational Challenges in Assuring Alignment and Safety of Large Language Models
这项工作确定了确保大型语言模型(LLM)的一致性和安全性的18个基本挑战。这些挑战分为三类:对LLM的科学理解、开发和部署方法以及社会技术挑战。基于已识别的挑战,我们提出了200多个具体的研究问题。原创 2024-08-10 10:33:54 · 193 阅读 · 0 评论 -
GreedLlama: Performance of Financial Value-Aligned Large Language Models in Moral Reasoning
本文通过“GreedLama”的案例研究,研究了将大型语言模型(LLM)与财务优化相结合的伦理意义,该模型经过微调,以优先考虑经济效益结果。通过将GreedLama在道德推理任务中的表现与基础Llama2模型进行比较,我们的结果突显了一个令人担忧的趋势:GreedLama表现出对利润的明显偏好,而不是道德考虑,在低和高道德模糊的情况下,以比基础模型低得多的速度做出道德上适当的决策。原创 2024-07-26 10:37:57 · 50 阅读 · 0 评论 -
Comparing Bad Apples to Good Oranges
对齐大型语言模型(LLM)的一种常见技术依赖于通过比较以固定上下文为条件的多生成来获取人类偏好。这仅在将生成置于相同的上下文中时利用成对比较。然而,这种有条件的排名往往无法捕捉到人类偏好的复杂和多维方面。在这项工作中,我们重新审视了偏好获取的传统范式,并提出了一个新的轴,该轴基于在指令-反应对上共同激发偏好。虽然先前的偏好优化是为条件排名协议(如DPO)设计的,但我们提出的偏好获取协议引入了DOVE,这是一种新的偏好优化目标,它使所选指令响应对的联合概率高于被拒绝的指令响应对。原创 2024-07-22 09:58:23 · 306 阅读 · 0 评论 -
Binary Classifier Optimization for Large Language Model Alignment
通过偏好优化使大型语言模型(LLM)与人类偏好保持一致是至关重要的,但也是劳动密集型的,需要评估人员对每个提示进行选择和拒绝的文本完成情况的比较。最近,Kahneman Tversky Optimization(KTO)已经证明,LLM可以在每个提示完成对上仅使用二进制“竖起大拇指”或“向下大拇指”信号进行对齐。在本文中,我们提出了理论基础来解释通过这些二进制信号实现的成功对准。我们的分析揭示了一个新的视角:优化一个二元分类器,其logit是一个奖励,隐式地诱导最小化直接偏好优化(DPO)损失。原创 2024-07-21 10:03:02 · 249 阅读 · 0 评论 -
A Moral Imperative: The Need for Continual Superalignment of Large Language Models
本文探讨了在人工智能系统,特别是大型语言模型(LLM)中实现终身超对齐所面临的挑战。超级对准是一个理论框架,旨在确保超级智能人工智能系统按照人类的价值观和目标行事。尽管其愿景很有希望,但我们认为,实现超对齐需要对当前的LLM架构进行实质性的改变,因为它们在理解和适应这些人类伦理和不断演变的全球场景的动态性质方面存在固有的局限性。我们剖析了将不断变化的人类价值观编码到LLM中的挑战,强调了静态人工智能模型与人类社会动态本质之间的差异。原创 2024-07-09 16:38:33 · 195 阅读 · 0 评论 -
HelpSteer2: Open-source dataset for training top-performing reward models
高质量的偏好数据集对于训练奖励模型至关重要,该模型可以有效地指导大型语言模型(LLM)生成与人类偏好一致的高质量响应。随着LLM变得更强和更好地协调,需要更新许可的偏好数据集,如Open Assistant、HHRLHF和HelpSteer,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对模型提供商的商业使用有限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可的偏好数据集(CC-BY-4.0)。原创 2024-06-25 15:52:53 · 112 阅读 · 0 评论 -
ITERALIGN: Iterative Constitutional Alignment of Large Language Models
随着大型语言模型(LLM)的快速发展,使LLM与人类价值观和社会规范保持一致以确保其可靠性和安全性变得至关重要。已经提出了利用人反馈的强化学习(RLHF)和宪法人工智能(CAI)来进行LLM对齐。然而,这些方法要么需要大量的人工注释,要么需要明确预定义的构造,这是劳动密集型和资源消耗型的。为了克服这些缺点,我们研究了基于宪法的LLM对齐,并提出了一个数据驱动的宪法发现和自比对框架ITERALIGN。ITERALIGN利用红色团队来揭示LLM的弱点,并使用更强的LLM自动发现新的体质。原创 2024-06-17 10:37:44 · 466 阅读 · 0 评论 -
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
大型语言模型(LLM)作为评估生成的自然语言质量的自动评估器,已经证明了其很有前途的能力。然而,LLM在评估中仍然表现出偏见,并且经常难以产生与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估者和人类判断之间的偏差进行了系统研究,揭示了旨在减轻偏差的现有校准方法不足以有效地调整LLM评估器。受RLHF中偏好数据使用的启发,我们将评估公式化为一个排序问题,并引入了成对偏好搜索(PAIRS),这是一种不确定性引导的搜索方法,使用LLM进行成对比较并有效地对候选文本进行排序。原创 2024-06-13 11:25:26 · 147 阅读 · 0 评论 -
Improving the Robustness of Large Language Models via Consistency Alignment
大型语言模型(LLM)在遵循用户指令和生成有用的响应方面取得了巨大成功。尽管如此,它们的鲁棒性仍远未达到最佳状态,因为它们可能会由于口头指令的微小变化而产生明显不一致的响应。最近的文献探讨了这一不一致性问题,强调了持续改进响应生成稳健性的重要性。然而,仍然缺乏系统的分析和解决方案。在本文中,我们定量地定义了不一致性问题,并提出了一个由指令增强监督微调和一致性对齐训练组成的两阶段训练框架。第一阶段通过类似的指令扩充帮助模型概括以下指令。原创 2024-06-05 09:06:56 · 43 阅读 · 0 评论 -
Ask Optimal Questions: Aligning Large Language Models with Retriever’s Preference in Conversational
与单轮检索任务不同,对话搜索需要在对话上下文中理解当前问题。重写然后检索的常见方法旨在去文本化问题,使现成的检索器能够自给自足,但由于结合检索结果信号的能力有限,大多数现有方法都会产生次优查询重写。为了克服这一限制,我们提出了一个新的框架RETPO(检索者偏好优化),该框架旨在优化语言模型(LM),以根据目标检索系统的偏好重新制定搜索查询。该过程首先提示大型LM生成各种潜在的重写,然后收集这些重写的检索性能作为检索器的首选项。原创 2024-05-16 10:17:48 · 59 阅读 · 0 评论 -
Vaccine: Perturbation-aware Alignment for Large Language Model
微调即服务的新范式为大型语言模型(LLM)引入了一个新的攻击面:用户上传的一些有害数据可以很容易地欺骗微调,产生一个破坏对齐的模型。我们进行了实证分析,发现了一种有害的嵌入漂移现象,显示了排列破坏效应的可能原因。受我们研究结果的启发,我们提出了Vaccine,这是一种扰动软件对齐技术,可以减轻用户微调的安全风险。Vaccine的核心思想是通过在对齐阶段逐渐添加精心制作的扰动来产生不变的隐藏嵌入。这使得嵌入能够在微调阶段承受来自未经净化的用户数据的有害扰动。原创 2024-05-13 11:15:26 · 201 阅读 · 0 评论 -
Exploring Multilingual Concepts of Human Values in Large Language Models
先前的研究表明,抽象概念在LLM的表示空间中被线性地表示为方向,主要以英语为中心。在本文中,我们将这项研究扩展到多语言背景下,特别关注与人类价值相关的概念(即价值概念),因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索,我们首先以多语形式实证证实了LLM中存在价值概念。原创 2024-05-10 09:29:25 · 42 阅读 · 0 评论 -
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
从人类反馈中强化学习(RLHF)形式的人工智能对齐越来越被视为高性能大型语言模型的关键组成部分。最近的文献将近端策略优化(PPO)定位为RLHF RL部分的规范方法。然而,它涉及高计算成本和敏感的超参数调整。我们假设,导致PPO发展的大多数动机原则在RLHF中不太受实际关注,并主张使用一种计算成本较低的方法来保持甚至提高性能。我们重新审视了RL背景下人类偏好的对齐公式。原创 2024-05-08 10:45:45 · 143 阅读 · 0 评论 -
HD-EVAL: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition
大型语言模型(LLM)已经成为一种很有前途的替代昂贵的人工评估的方法。然而,基于LLM的评估的一致性和覆盖范围往往受到评估提示和标准的范围和潜在偏差的限制。为了应对这一挑战,我们提出了HD-EVAL,这是一种新的框架,通过分层标准分解将基于LLM评估的评估者与人类偏好迭代地一致。HD-EVAL继承了人类专家评估思维的精髓,通过将给定的评估任务分解为更细粒度的标准,根据估计的人类偏好对其进行聚合,将不重要的标准与归因进行修剪,并进一步分解重要的标准,增强了基于LLM的评估者的一致性。原创 2024-05-06 10:39:42 · 527 阅读 · 0 评论 -
Gotcha! Don’t trick me with unanswerable questions! Self-aligning Large Language Models
尽管大型语言模型(LLM)具有非凡的回答问题的能力,但即使问题没有明确的答案,它们也经常表现出相当程度的过度自信。为了避免对这些未知问题提供幻觉般的答案,现有的研究通常会调查拒绝回答这些问题的方法。在这项工作中,我们提出了一种新的、可扩展的自对准方法,利用LLM本身来增强其对不同类型未知问题的响应能力,不仅能够拒绝回答,而且能够解释未知问题的不可回答性。具体来说,SelfAlign方法首先采用两阶段的类感知自增强方法来生成大量未知的问题-答案数据。原创 2024-05-05 22:36:04 · 123 阅读 · 0 评论 -
Learn Your Reference Model for Real Good Alignment
对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。原创 2024-04-23 19:20:15 · 75 阅读 · 0 评论 -
Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment
当前的大型语言模型(LLM)是否可以通过参数更新更好地解决图推理和生成任务?在本文中,我们提出了InstructionGraph,这是一个框架,通过指令调整和偏好调整,使LLM能够进行图推理和生成。具体而言,我们首先提出了一种结构化格式描述器,将所有图形数据统一为通用的类代码格式,该格式可以简单地表示图形,而无需任何外部的图形专用编码器。此外,引入了图指令调整阶段来指导LLM解决图推理和生成任务。最后,我们识别了图任务中潜在的幻觉问题,并对负实例进行了偏好对齐采样,其目标是提高模型的输出可靠性。原创 2024-04-18 10:56:19 · 175 阅读 · 0 评论 -
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of LLMs
来自人类反馈的强化学习(RLHF)已被广泛用于使大型语言模型与用户意图相一致。然而,基于近端策略优化(PPO)的RLHF偶尔是不稳定的,需要进行显著的超参数微调,并且在对齐期间最大化估计的回报在计算上是昂贵的。最近,直接偏好优化(DPO)被提出来解决这些挑战。然而,DPO通常依赖于人类注释器和替代LLM生成的对比响应,而不是策略模型,这限制了RLHF的有效性。在本文中,我们通过系统地结合拒绝采样(RS)和DPO来解决这两个挑战。我们提出的方法,RS-DPO,始于监督微调策略模型(SFT)的开发。原创 2024-04-13 10:51:57 · 240 阅读 · 0 评论 -
Enhancing Large Language Model Fine-Tuning with Style-Aligned Response Adjustments
为特定任务使用小数据集对大型语言模型(LLM)进行微调是一个广泛而复杂的挑战。对有限数量的例子进行过拟合的可能性可能会对模型的泛化和保留其原始技能的能力产生负面影响。我们的研究探讨了微调过程中真实实况反应风格的影响。我们发现,将基本事实反应风格与LLM的固有风格相匹配,可以获得更好的学习结果。基于这一见解,我们开发了一种方法,使用这些调整后的响应作为训练目标,最小限度地改变LLM预先存在的响应,以纠正错误。这项技术能够根据模型的本地响应风格进行精确校正,保护模型的核心能力,从而避免过度拟合。原创 2024-04-10 09:43:24 · 64 阅读 · 0 评论 -
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences
从人类反馈中强化学习(RLHF)通过使用从偏好数据导出的单一奖励模型,使语言模型与人类偏好相一致。然而,这种方法忽略了从多个用户收集的数据中固有的人类偏好的丰富多样性。在这项工作中,我们首先得出了与单一奖励RLHF一致的不可能结果,从而突出了其在代表不同人类偏好方面的不足。为了提供该问题的公平解决方案,我们通过期望最大化算法学习偏好分布的混合,并受社会选择理论中的平等原则的启发,提出了政策学习的MaxMin对齐目标,以更好地代表不同的人类偏好。原创 2024-04-09 09:44:14 · 355 阅读 · 0 评论 -
A Critical Evaluation of AI Feedback for Aligning Large Language Models
人工智能反馈强化学习(RLAIF)是一种流行的范式,用于提高强大的预训练语言模型的指令跟随能力。RLAIF首先使用来自教师模型的演示执行监督微调(SFT),然后使用来自评论家模型的反馈通过强化学习(RL)进一步微调模型。虽然最近流行的开源模型已经证明了RL步骤在性能上有了实质性的改进,但在本文中,我们质疑RL步骤的复杂性是否真的适合人工智能反馈。我们表明,RL步骤的改进实际上完全是由于在SFT数据收集中使用比用于人工智能反馈生成的批评者(例如,GPT-4)更弱的教师模型(例如GPT-3.5)的广泛实践。原创 2024-04-05 14:50:41 · 48 阅读 · 0 评论 -
Transforming and Combining Rewards for Aligning Large Language Models
将语言模型与人类偏好相一致的一种常见方法是首先从偏好数据中学习奖励模型,然后使用该奖励模型来更新语言模型。我们研究了在这种方法中出现的两个密切相关的问题。首先,奖励模型的任何单调变换都保持了偏好排序;有比其他人“更好”的选择吗?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?使用对齐过程的概率解释,我们确定了从Bradley Terry偏好模型中学习到的奖励(常见情况)的自然转换选择。这个派生变换有两个重要性质。首先,它强调改善表现不佳的产出,而不是已经取得好成绩的产出。原创 2024-03-31 11:04:27 · 137 阅读 · 0 评论 -
GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks
像ChatGPT这样的大型语言模型(LLM)展示了强大的零样本和指令跟踪功能,催化了不同领域的革命性转变,尤其是对于开放式任务。虽然这一想法在图领域的探索较少,尽管有许多强大的图模型(GM)可用,但它们仅限于预定义形式的任务。尽管已经提出了几种将LLM应用于图的方法,但它们无法同时处理预定义和开放的任务,LLM作为节点特征增强器或独立的预测器。原创 2024-03-26 17:36:39 · 216 阅读 · 0 评论 -
Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation
将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。原创 2024-03-20 10:57:25 · 79 阅读 · 0 评论 -
DeAL: Decoding-time Alignment for Large Language Models
如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。原创 2024-03-20 10:05:05 · 203 阅读 · 0 评论 -
Aligning Large Language Models to a Domain-specific Graph Database
图数据库(Graph DB)广泛应用于金融、社交网络和医学等各个领域。然而,由于其固有的复杂性和专业性,将自然语言(NL)翻译成图查询语言(GQL)(通常称为NL2GQL)被证明是具有挑战性的。一些方法试图利用大型语言模型(LLM)来处理类似的任务,如text2SQL。然而,当涉及到特定域上的NL2GQL任务时,由于缺乏特定于域的NL-GQL数据对,因此很难在LLM和图形DB之间建立对齐关系。为了应对这一挑战,我们提出了一个定义明确的管道。原创 2024-03-15 14:14:38 · 110 阅读 · 0 评论 -
Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of LLM
虽然在大型语言模型(LLM)的研究中,代理交互和个性化都是充满活力的主题,但对语言交互对受角色制约的LLM代理行为的影响的关注有限。这样的努力对于确保代理人与他们指定的特征保持一致,同时能够进行公开的、自然主义的对话非常重要。在我们的实验中,我们通过提示对GPT-3.5进行人格特征调节,并使用简单的变异性诱导采样算法创建两组LLM代理。然后,我们进行性格测试,并将代理提交给合作写作任务,发现不同的个人资料表现出不同程度的性格一致性和与对话伙伴的语言一致性。原创 2024-03-12 09:52:57 · 57 阅读 · 0 评论
分享