![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LLM-数据
文章平均质量分 93
LLM-数据
nopSled
一周一更
展开
-
Common 7B Language Models Already Possess Strong Math Capabilities翻译
长期以来,数学能力一直被认为非常具有挑战性,以至于它们被认为只能大规模地出现在通用语言模型中。例如,(Wei et al., 2022a,b) 的研究表明,只有参数大小超过 500 亿的模型才能获得有意义的准确性或从数学问题的思维链处理中受益。为较小的语言模型配备数学能力的策略包括创建特定于数学的基础模型,并在数千亿个与数学相关的预训练数据上进行训练。然而,此类模型的准确性仍然较低。例如,Llemma-7B 在 GSM8K 数据集上仅达到 36.4%,在 MATH 数据集上仅达到 18.0%。翻译 2024-03-25 04:09:09 · 41 阅读 · 0 评论 -
SelectIT: Selective Instruction Tuning for Large Language Models翻译
大型语言模型(LLM)因其在指令遵循和解决复杂问题方面的令人印象深刻的能力而备受关注。提高LLM性能的一个关键方面是指令微调(IT),其中涉及使用成对的指令数据对LLM进行有监督调整,这对于提高模型准确响应人类指令的能力至关重要。最近的突破性研究,例如 LIMA,强调了指令数据的质量比数量至关重要。与仅仅增加数据集大小的方法相反,精心挑选的、较小的、较高质量的数据集可以显着提高LLM的表现。尽管出现了各种选择高质量数据的方法,但这些方法通常依赖于外部资源并限制了更广泛的实现。翻译 2024-03-10 19:47:50 · 52 阅读 · 0 评论 -
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability翻译
人们越来越有兴趣使用语言模型(LM)作为信息来源和事实验证工具。但如今的语言模型无法稳健地执行这两项任务:它们很容易生成事实上不正确、自相矛盾的信息,并且难以用新信息进行更新。然而,即使它们对事实的判断不完美,当前的 LM 也是文本片段之间事实关系的相当可靠的模型:它们可以识别语句之间的逻辑和概率关系,并根据作为输入提供的新信息生成文本。例如,LM 无法回答以下问题:How old was Charlie Chaplin when he died?翻译 2024-02-10 04:27:47 · 48 阅读 · 0 评论 -
Learning From Mistakes Makes LLM Better Reasoner翻译
随着数据规模和模型规模的指数级增长,当代大型语言模型在各种 NLP 任务上表现出了显着的进步,特别是在需要复杂的思维链 (CoT) 推理的数学问题解决方面。在 GSM8K 和 MATH 等具有挑战性的数学任务上的性能方面,专有的大语言模型(包括 GPT-4 和 PaLM-2)取得了显着的成绩。然而,开源LLM,例如LLaMA-2和Baichuan-2,仍然有很大的改进空间。翻译 2024-01-20 19:09:42 · 108 阅读 · 0 评论 -
Self-Alignment with Instruction Backtranslation翻译
对齐大语言模型 (LLM) 以执行指令遵循通常需要对大量人工标注的指令或偏好数据进行微调,或者从更强大的模型中提取输出。Zhou et al. [2023], Köpf et al. [2023] 最近的工作强调了人工标注数据质量的重要性。然而,使用如此高质量的数据集标注指令很难扩展。在这项工作中,我们利用大量未标注的数据,通过开发一种可迭代的自训练算法来创建高质量的指令调整数据集。该方法使用模型本身来增强和校准高质量的训练样例,以提高其自身的性能。我们的方法称为。翻译 2023-08-20 19:15:32 · 303 阅读 · 0 评论 -
Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models翻译
Few-shot演示,即描述任务输入和输出的样例,可以使大型语言模型(LLM)执行各种任务而无需进行微调。LLM可以通过使用思维链提示来进一步提高其性能,这为任务提供了中间推理步骤。但是,LLM的few-shot性能在很大程度上取决于演示的质量,尤其是对于需要复杂和多样化的推理模式的推理任务。手动创建大量而多样化的示例作为演示是昂贵且单调的,而依靠有限的演示集合可能会阻碍LLM的繁华和适应不同的测试输入。翻译 2023-06-29 15:38:04 · 182 阅读 · 0 评论 -
Principle-Driven Self-Alignment of Language Model翻译
将大型语言模型(LLM)与人类价值观和意图相对齐的问题在全面,尊重和合规性方面已在研究界中引起了极大的关注,因为最近的AI系统(例如ChatGPT或GPT-4)在其能力方面获得了迅速提高。目前,最先进的AI系统主要依赖于人类指令和标注数据进行有监督微调(SFT),以及从人类偏好的反馈中进行强化学习(RLHF)。这些技术的成功在很大程度上依赖于广泛的人类监督数据的可用性,这些数据不仅昂贵,而且还存在潜在的问题,例如质量,可靠性,多样性,创造力,自恰性,不良偏见等。翻译 2023-06-28 15:47:59 · 157 阅读 · 0 评论 -
Red Teaming Language Models with Language Models
语言模型(LM)是一种有前途的工具,能应用到各种场景,从对话助手到问答系统。但是,在生产中部署LM会以难以预测的方式伤害用户。例如,在对抗用户激活了聊天机器人Tay,并向5000个关注者发送种族歧视和性相关推文后,Microsoft关闭了该系统。其他工作已经发现,LM会从训练语料中产生错误信息,机密及个人信息(例如社会保险号)。这种行为会产生严重的后果,因此在部署前发现和解决这些行为至关重要。先前的工作要求人工标注者手动发现这些行为,但是这限制了有害样例的数量和多样性。翻译 2023-01-12 15:38:25 · 1327 阅读 · 1 评论 -
Deduplicating Training Data Makes Language Models Better翻译
自然语言处理最近进展的一个关键因素是用于训练越来越大语言模型的大规模文本语料的发展。在过去的几年中,这些数据集已从单个千兆字节增长到万亿字节。由于在大规模数据集上进行人工审查和设计非常昂贵,所以与较小的数据相比,它们往往会受到质量的困然。使用困惑度和验证损失等指标来进行评估远远是不行的,因为学习的模型反映了其训练数据中存在的偏见。因此,定量和定性地理解这些数据集本身就是一项研究挑战。我们表明,一个特定的包含偏见的来源,重复的训练数据是普遍的:我们研究的所有四个常见的NLP数据集都包含重复。翻译 2023-06-06 11:47:22 · 278 阅读 · 0 评论 -
A Pretrainer’s Guide to Training Data翻译
现代语言模型(LM)的强大性能和涌现能力取决于在大规模文本数据集上进行自监督预训练。所有模型的开发人员都隐式或显式地决定这些数据集的组合:要包括哪些数据源,是否过滤具有质量低和有害等属性的文档,以及何时收集新的文档。尽管许多性能突出的模型没有记录他们的数据设计过程,或者仅记录了他们使用了哪些数据,但他们很少记录为什么选择这些协议或有什么影响。这些文档缺陷使从业人员受到直觉和先前例子的指导,因此从未对其进行彻底评估。翻译 2023-06-01 16:01:37 · 118 阅读 · 0 评论