LLM-训练
文章平均质量分 93
LLM-训练
nopSled
一周一更
展开
-
Let’s Verify Step by Step翻译
大型语言模型能够通过以逐步的思维链形式生成解决方案来解决需要复杂多步骤推理的任务。然而,即使是最先进的模型也容易产生错误——它们倾向于在不确定的时刻编造事实。这些幻觉在需要多步骤推理的领域尤其成问题,因为一个逻辑错误就足以破坏更大的解决方案。检测和减轻幻觉对于提高推理能力至关重要。一种有效的方法是训练奖赏模型来区分期望输出和不期望输出。然后,奖赏模型可用于强化学习管道或通过拒绝采样进行搜索。虽然这些技术很有用,但最终系统的可靠性需要依赖于奖赏模型本身。因此,研究如何最有效地训练可靠的奖赏模型非常重要。翻译 2024-10-11 03:54:56 · 24 阅读 · 0 评论 -
To Code, or Not To Code? Exploring Impact of Code in Pre-training翻译
在最近的突破中,数据的作用至关重要。最先进的模型强调了预训练数据混合、数据源多样性以及计算可用性作为性能关键驱动因素的重要性。一个关键问题是,数据的哪些属性可以带来最佳的总体性能?令人惊讶的是,即使模型并非明确旨在生成高质量代码,预训练中也经常包含代码。代码数据集在结构和文本特征方面与高质量网络数据集有很大不同。尽管如此,之前几代 LLM(如 PaLM、Gopher 和 Bloom)并未明确旨在支持代码生成,但它们在预训练混合中包含了一定比例的代码数据和高质量的自然语言数据。翻译 2024-09-13 03:01:30 · 49 阅读 · 0 评论 -
Instruction Pre-Training: Language Models are Supervised Multitask Learners翻译
在通用人工智能的道路上,多任务学习作为一种有前途的方法出现了。然而,将有监督多任务学习扩展到必要的程度是非常具有挑战性的。这促使 GPT-2 探索无监督式多任务学习:通过因果语言建模对原始语料库进行预训练,这有助于扩大训练数据。随着时间的推移,无监督式多任务学习已经发展成为预训练语言模型 (LM) 的标准方法,在本文中被称为 Vanilla Pre-Training。尽管无监督方法取得了成功,但有监督多任务学习仍然具有巨大的前景。翻译 2024-07-14 19:01:24 · 134 阅读 · 0 评论 -
Mitigate Position Bias in Large Language Models via Scaling a Single Dimension翻译
长上下文大型语言模型 (LLM) 最近在社区中引起了广泛关注,使 LLM 能够处理更长、更复杂的任务,例如长上下文问答和存储库级代码理解。然而,最近的研究表明,这些长上下文 LLM 难以有效且一致地利用上下文中提供的所有信息,表现出一种称为“lost in the middle”的位置偏差,这意味着 LLM 倾向于忽略提示中间的信息,即使它们可以很好地利用提示开头和结尾的信息。这个问题几乎出现在所有 LLM 中,无论是纯解码器模型还是编码器-解码器模型、强大的模型还是小型 LLM。翻译 2024-07-06 19:26:24 · 97 阅读 · 0 评论 -
Token-level Direct Preference Optimization翻译
大型语言模型 (LLM) 已在各种领域展现出显著的泛化能力,包括文本摘要、代码编写,甚至遵循人类指令。为了使 LLM 与人类意图保持一致,来自人类反馈的强化学习 (RLHF) 已成为一种非常有效的方法,体现了风格和道德价值观。这些方法通常涉及奖赏模型的训练,然后使用强化学习 (RL) 对策略模型进行微调。直接偏好优化 (DPO) 引入了一种直接有效的技术,使用成对比较来训练 LLM,而无需明确建立奖赏模型。翻译 2024-06-30 21:33:56 · 146 阅读 · 0 评论 -
Fewer Truncations Improve Language Modeling翻译
大型语言模型 (LLM) 在许多自然语言处理和编码基准以及复杂的现实任务中取得了前所未有的成功。这一显著进步是由对大量未标记文档的大规模预训练推动的。在格式化训练输入时,简单地将每个文档填充到固定长度是低效的,因为短文档会导致过多的填充。相反,常见的做法是将所有文档拼接在一起,然后将它们拆分为与模型的上下文长度完全相同的序列。通常在每个文档的末尾添加一个token标记(例如,),以指示每个训练序列内的文档边界。翻译 2024-06-23 15:27:02 · 91 阅读 · 0 评论 -
From r to Q∗ : Your Language Model is Secretly a Q-Function翻译
人类反馈强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类意图结合起来的事实上的方法,因为它在从摘要到指令遵循的广泛应用中取得了成功。通过从人类token的比较中学习奖赏函数,RLHF 能够捕获实际情况下无法描述的复杂目标。继 (Ziegler et al., 2020) 的成功之后,许多工作都考虑使用强化学习(RL)技术从各个领域的大型模型中进行训练和采样的新算法。特别是直接对齐方法,例如直接偏好优化(DPO),由于其简单性而在最近几个月获得了关注。翻译 2024-05-15 05:06:45 · 201 阅读 · 0 评论 -
Self-Rewarding Language Models翻译
使用人类偏好数据对齐大型语言模型 (LLM) 可以极大地提高预训练模型的指令遵循性能。基于人类反馈的强化学习 (RLHF) 的标准方法从这些人类偏好中学习奖赏模型。然后奖赏模型被冻结并用于 RL 训练 LLM,例如通过 PPO。最近的一个替代方案是完全避免训练奖赏模型,并直接使用人类偏好来训练 LLM,如直接偏好优化 [DPO]。在这两种情况下,该方法都受到人类偏好数据的大小和质量的瓶颈,并且在 RLHF 的情况下,还受到从它们训练的参数固定的奖赏模型的质量瓶颈。翻译 2024-02-04 04:52:09 · 95 阅读 · 0 评论 -
Direct Preference Optimization: Your Language Model is Secretly a Reward Model翻译
在非常大的数据集上训练的大型无监督语言模型(LM)获得了令人惊讶的能力。然而,这些模型是根据人类生成的数据进行训练的,这些数据具有各种目标、优先级和技能。其中一些目标和技能可能不适合模仿;例如,虽然我们可能希望人工智能编码助手即了解常见的编程错误以便纠正它们,同时,在生成代码时,我们希望将我们的模型偏向于其训练中存在的(可能罕见的)高质量编码能力数据。同样,我们可能希望我们的语言模型能够意识到 50% 的人相信的常见误解,但我们当然不希望模型在 50% 的问题中声称这种误解是正确的!翻译 2023-12-30 04:33:16 · 562 阅读 · 0 评论 -
SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION翻译
尽管模型和数据规模不断扩大,SOTA的LLM仍然会产生事实类错误。检索增强生成 (RAG) 方法(图 1 左)通过检索相关段落来增强LLM的输入,从而减少知识密集型任务中的事实错误。然而,这些方法可能会阻碍LLM的多功能性,或者引入不必要的或偏离主题的段落,从而导致低质量的生成,因为它们不加区别地检索段落,而且不管事实基础是否有帮助。此外,不能保证输出与检索到的相关段落一致,因为模型没有经过明确的训练来利用和遵循所提供段落中的事实。翻译 2023-10-26 02:40:41 · 783 阅读 · 0 评论 -
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback翻译
基于人类反馈的强化学习 (RLHF) 可以有效地将大型语言模型 (LLM) 与人类偏好保持一致,但收集高质量的人类偏好标签是一个关键瓶颈。我们对 RLHF 与来自 AI 反馈 (RLAIF) 的 RL 进行了正面的比较,RLAIF是一种由现有的LLM代替人类来标记偏好的技术,我们发现它们会带来类似的改进。在摘要任务中,约 70% 的情况下,人类评估者更喜欢使用 RLAIF 和 RLHF 生成,而不是基线的有监督微调模型。此外,当被要求对 RLAIF 与 RLHF 总结进行评分时,人们对两者的偏好程度相同。翻译 2023-09-24 19:06:35 · 367 阅读 · 0 评论 -
PROMPT2MODEL: Generating Deployable Models from Natural Language Instructions翻译
传统上,从头开始构建 NLP 模型是一项艰巨的任务。寻求解决新问题的 NLP 从业者需要定义其任务范围、查找或创建满足预期系统行为的数据、选择合适的模型架构、训练模型、通过评估其性能,然后将其部署到实际环境中。像 GPT-3 这样的LLM通过“提示”为 NLP 系统构建提供了一种更轻量级的范式。从业者现在可以编写一个提示,指定预期的系统行为(可选地提供一些演示),并要求LLM通过文本补全生成所需的输出。这使得无需编写一行代码即可快速为各种应用程序构建 NLP 系统原型。翻译 2023-09-07 02:15:59 · 183 阅读 · 0 评论 -
Reinforced Self-Training (ReST) for Language Modeling翻译
大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面表现出了令人印象深刻的能力。这些模型经过使用大量文本的训练,可以用来自回归地最大化下一个token的似然。然而,Perez et al. (2022) 表明,生成具有高似然的文本不一定与人类在各种任务上的偏好完全对齐。如果没有适当的对齐,语言模型还可能输出不安全的内容,从而产生有害的后果。此外,对齐LLM有助于改进其他下游任务。来自人类反馈的强化学习(RLHF)旨在通过利用人类偏好来解决对齐问题。翻译 2023-08-25 02:38:41 · 668 阅读 · 0 评论 -
Improving alignment of dialogue agents via targeted human judgements翻译
许多部署的机器学习系统在没有程序来计算系统目标的设置中运行。这不仅在许多自然语言任务中是正确的,而且在机器人和其他只涉及部分安全行为以及能够提前指定目标的任务中也是正确的。缺乏程序性奖赏激发了来自人类反馈的强化学习(RLHF),其中人类对行为的判断是训练过程的关键组成部分。但是,只有在人类具有丰富知识和动机明确的情况下,并且数据收集设置对人类犯错很鲁棒时,人类的监督才能起作用。翻译 2023-01-09 17:22:09 · 781 阅读 · 0 评论 -
Training language models to follow instructions with human feedback翻译
可以通过“提示”并给定一些任务样例作为输入,大型语言模型(LMS)可以被用来执行一系列自然语言处理(NLP)任务。但是,这些模型经常表现出一些不期望行为,例如伪造事实,生成偏见或有毒文本,或者根本不遵守用户指令。这是因为用于训练大型LM的目标(token预测)与“遵守对用户有帮助,且安全的指令”这一目标不同。因此,我们认为语言建模的目标是未被对齐的。避免这些意外行为对于在数百个应用中部署和使用的语言模型尤其重要。我们通过让语言模型满足用户的意图来训练。翻译 2022-12-08 15:57:01 · 4420 阅读 · 0 评论
分享