LongWriter-6k 数据集开发利用 AgentWrite：一种在LLM中将输出长度扩展到超过10,000字，同时确保内容生成连贯且高质量的方法

科技大本营

于 2024-09-02 16:26:49 发布

阅读量498

点赞数 23

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/topai1/article/details/141823146

版权

大语言模型（LLMs）的领域已经取得了巨大的进展，特别是在扩展其记忆容量以处理越来越多的上下文方面。现在这些模型可以处理超过100,000个标记的输入，使得它们能够执行高度复杂的任务，例如生成长篇文本、翻译大型文档和总结大量数据。然而，尽管在处理能力方面取得了这些进展，在生成等长输出方面仍然存在关键限制。大多数当前的模型难以生成超过2,000字的连贯文本，这给需要综合和详细内容生成的任务带来了重大挑战。

这些模型面临的一个主要问题是，它们无法在扩展输出中保持连贯性和相关性。虽然LLMs已经在大型数据集上进行了微调，但这些数据集通常只包含短输出。因此，模型固有地受制于在训练过程中遇到的示例，将最大输出长度限制在约2,000字。当用户需要详细内容时，这种限制尤其明显，例如撰写研究论文、生成长篇报告或创建深入的分析。超过这个字数限制而导致连贯性或信息重复的问题，一直是将LLMs应用于需要大量书面内容领域的主要障碍。

现有克服这一限制的方法尚未成功解决问题的根本原因。尽管使用了一些方法，如迭代微调和综合训练数据，但它们尚未显著地延长输出长度。这些方法仍然依赖于不超过2,000字输出限制的数据集，因此继承了相同的限制。这意味着即使使用高级微调技术，模型在生成更长文本时仍可能遇到内容截断或生成文本缺乏连贯性的问题。

清华大学和智谱AI的研究团队提出了一种创新解决方案，称为 AgentWrite。这种新颖的基于代理的管道设计用于将超长写作任务分解为较小、易于管理的子任务，从而使现有LLMs能够生成超过20,000字的连贯输出。通过分解任务，AgentWrite使现成模型能够在不影响质量的情况下管理和生成长篇内容。这种方法显著不同于试图通过仅仅微调现有短输出数据集来延长输出长度的传统方法。

AgentWrite首先根据用户输入制定详细的写作计划。该计划概述了文本的结构，并指定了每一段或部分的目标字数。根据这个计划，模型按顺序为每个部分生成内容，确保输出保持连贯和结构合理。研究团队通过实验验证了AgentWrite的有效性，展示了其生成高质量20,000字输出的能力。这种方法利用了现有LLMs的内在能力，从而避免了开发全新模型的需要，这既耗时又耗费资源。

研究人员通过引入一个包含 6,000 个有监督微调 (SFT) 数据条目的LongWriter-6k数据集进一步增强了这一方法，这些数据条目的输出长度范围从 2,000 到 32,000 个单词。不久前，该数据集被合并到大语言模型（LLMs）的训练中，证明这是一种颠覆性的做法，使得模型能够生成超过 10,000 个单词的结构良好的输出。这个数据集解决了现有 SFT 数据集中长输出示例不足的问题，并成功地扩展了输出长度，同时保持了生成文本的高质量。团队还开发了一个名为 LongBench-Write 的基准测试，专门用于评估这些模型的超长输出生成能力。使用这种方法训练的 90 亿参数模型在 LongBench-Write 上达到了最先进的性能，甚至超过了规模更大的专有模型。

图片来源

这项研究的影响是显著的，它表明限制长上下文 LLM 输出长度的主要因素是 SFT 数据施加的限制。通过引入 AgentWrite 和 LongWriter-6k，研究人员有效地解锁了现有 LLM 生成超长输出的潜力。这种方法将这些模型的输出窗口扩展到超过 10,000 个单词，并确保输出质量不受影响。直接偏好优化（DPO）进一步增强了模型遵循长写作指令并生成高质量内容的能力。

总之，AgentWrite 和 LongWriter-6k 的引入为生成超长输出提供了一种实用而可扩展的解决方案，为需要大量书面内容的领域中 LLMs 的广泛应用铺平了道路。通过突破 2,000 字的障碍，这项工作为在学术写作、详细报告和需要长篇内容的重要领域中使用 LLMs 开辟了新的可能性。

总结：

大语言模型（LLMs）在扩展其记忆容量和处理大量上下文方面取得了显著进展，允许处理超过100,000个标记的输入。然而，现有模型在生成超过2,000字的连贯文本上仍存在挑战，难以在长文本生成中保持连贯性。传统方法如迭代微调未能真正突破这一限制，导致输出长度受限。

为解决这一问题，清华大学和智谱AI提出了一种基于代理的创新解决方案——AgentWrite。通过将超长写作任务分解为较小易管理的子任务，AgentWrite使得现有LLMs能够生成超过20,000字的连贯输出。除此之外，研究团队还引入了名为LongWriter-6k的数据集，增强模型生成超长输出文本的能力。

通过这些新方法，AgentWrite和LongWriter-6k突破了2,000字的输出限制，为学术写作、长篇报告等需要大量书面内容的领域开辟了新应用。针对超长文本输出，研究团队还开发了LongBench-Write基准测试，进一步证明了新方法的有效性。

总之，AgentWrite和LongWriter-6k为生成超长输出提供了实用而可扩展的解决方案，为LLMs在学术和专业领域的应用铺平了道路，确保了长文本内容的质量和连贯性。

光年AI，利用AI技术提升私域流量转化率，实现业务突破。通过光年AI平台，您可以轻松选择应用场景，并设置特定的AI工作流，快速提升流量和客户数。光年AI整合先进的AI模型和自研知识库，助您在激烈的市场竞争中占据先机，显著提高营销效果和品牌影响力。让私域流量管理变得智能、高效，助力您的业务快速增长。

科技大本营

关注

23
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
LongWriter-6k 数据集开发利用 AgentWrite：一种在LLM中将输出长度扩展到超过10,000字，同时确保内容生成连贯且高质量的方法

大语言模型（LLMs）在扩展其记忆容量和处理大量上下文方面取得了显著进展，允许处理超过100,000个标记的输入。然而，现有模型在生成超过2,000字的连贯文本上仍存在挑战，难以在长文本生成中保持连贯性。传统方法如迭代微调未能真正突破这一限制，导致输出长度受限。为解决这一问题，清华大学和智谱AI提出了一种基于代理的创新解决方案——AgentWrite。通过将超长写作任务分解为较小易管理的子任务，AgentWrite使得现有LLMs能够生成超过20,000字的连贯输出。
复制链接

扫一扫