在线教程 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 突破长文输出瓶颈

近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2,000 词的连贯输出时,往往会遇到困难。

主要的原因之一是因为 SFT(监督式微调)数据集长输出样本的稀缺性。 研究表明,模型的最大输出长度与其在 SFT 阶段接触的样本长度有显著的正相关性。换句话说,尽管模型已经学会了如何理解和处理长文本,但它们还没有充分学习如何生成同样长度的文本。

为了解决这一问题,清华大学联合智谱 AI 基于 AgentWrite 技术构建了名为 LongWriter-6k 的数据集,包含 6,000 个 SFT 数据样本,输出长度从 2k 到 32k 个单词不等。该数据集目前已上线至 HyperAI超神经官网数据集版块,支持一键 input。

数据集地址:

https://go.hyper.ai/77byR

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。

目前,「一键部署 LongWriter-glm4-9b」已上线至 HyperAI超神经教程版块, 一键克隆即可开启对话。

教程地址:

https://go.hyper.ai/p6SiO

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,搜索「一键部署 LongWriter-glm4-9b」,点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果预览

  1. 打开 Demo 界面,我们让它生成一个 10,000 字的悬疑小说。

在这里插入图片描述

  1. 可以看到它迅速输出了一个长篇悬疑小说。

在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
`glm4-9b-1m` 和 `glm4-9b-chat` 都是由 CSDN 开发的 AI 模型,它们都是基于大语言模型构建的工具,旨在提供智能问答、代码生成等服务。然而,它们之间存在一些关键的区别: ### `glm4-9b-1m` - **目的定位**:`glm4-9b-1m` 通常指代一个较为通用的语言模型,其设计目标可能是处理多种任务,包括但不限于文本理解、自然语言生成、翻译等多个领域。 ### `glm4-9b-chat` - **特定功能**:`glm4-9b-chat` 更专注于聊天交互场景。这个名称暗示了它特别优化为了提供流畅的人机对话体验,能够更好地理解上下文、保持对话连贯,并能快速响应用户的提问或指令。 ### 区别 1. **应用场景**:`glm4-9b-1m` 可能更适用于需要广泛能力支持的任务,如多模态理解和生成、文本到文本转换等多种应用;而 `glm4-9b-chat` 则专门针对实时交互需求,尤其适合于需要快速响应和高互动性的环境,比如客服机器人、即时通讯助手等。 2. **技术细节**:尽管具体的内部架构细节可能不对外公开,但可以合理推测,`glm4-9b-chat` 的训练数据集可能包含了大量的对话历史记录,以及更多关于对话管理的知识,这有助于提升模型在连续对话过程中的性能。此外,它可能还经过了特定的优化,使得在对话过程中上下文保持一致性和流畅性成为可能。 3. **性能侧重点**:考虑到 `glm4-9b-chat` 的命名,我们可以假设该模型在处理连续对话任务上有着更高的效率和质量保证。这可能意味着在对话的持续性、话题转移的平滑过渡等方面有更强的表现。 ### 相关问题: 1. 这两个模型在训练数据集的选择上有何差异? 2. 对于需要大量交互式对话的应用来说,如何评估并选择最适合的模型? 3. 如果希望开发一款虚拟助理软件,应该考虑哪些因素来决定采用 `glm4-9b-1m` 还是 `glm4-9b-chat`?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值