在线教程 | 1 分钟生成万字悬疑小说，LongWriter-glm4-9b 突破长文输出瓶颈

HyperAI超神经

于 2024-09-03 16:25:46 发布

阅读量651

点赞数 3

文章标签：人工智能机器学习深度学习语言模型自然语言处理文本处理文学创作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HyperAI/article/details/141865040

版权

近年来，大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力，能够处理高达 100,000 个 tokens 的输入，但在生成超过 2,000 词的连贯输出时，往往会遇到困难。

主要的原因之一是因为 SFT（监督式微调）数据集长输出样本的稀缺性。 研究表明，模型的最大输出长度与其在 SFT 阶段接触的样本长度有显著的正相关性。换句话说，尽管模型已经学会了如何理解和处理长文本，但它们还没有充分学习如何生成同样长度的文本。

为了解决这一问题，清华大学联合智谱 AI 基于 AgentWrite 技术构建了名为 LongWriter-6k 的数据集，包含 6,000 个 SFT 数据样本，输出长度从 2k 到 32k 个单词不等。该数据集目前已上线至 HyperAI超神经官网数据集版块，支持一键 input。

数据集地址：

https://go.hyper.ai/77byR

随后，该研究团队还利用 LongWriter-6k，基于 GLM-4-9B 进行训练，得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b，显著扩展了大型语言模型的输出潜力，在文学创作、新闻报道等实际应用中表现出极大的广泛性。

目前，「一键部署 LongWriter-glm4-9b」已上线至 HyperAI超神经教程版块， 一键克隆即可开启对话。

教程地址：

https://go.hyper.ai/p6SiO

Demo 运行

登录 hyper.ai，在「教程」页面，搜索「一键部署 LongWriter-glm4-9b」，点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在这里插入图片描述

点击右下角「下一步：选择算力」。

在这里插入图片描述

页面跳转后，选择「NVIDIA RTX 4090」以及「PyTorch」镜像，点击「下一步：审核」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

在这里插入图片描述

确认无误后，点击「继续执行」，等待分配资源，首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果预览

打开 Demo 界面，我们让它生成一个 10,000 字的悬疑小说。

在这里插入图片描述

可以看到它迅速输出了一个长篇悬疑小说。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。