CritiCS:智能协作下的创意长篇故事生成框架 | EMNLP‘24

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Collective Critics for Creative Story Generation

创新点


  • 提出了 C r i t i C S {\tt CritiCS} CritiCS 的框架,旨在通过基于创造力标准的集体评议,创造性地增强故事计划和文本表现力。
  • 通过实验表明, C r i t i C S {\tt CritiCS} CritiCS 有效地创造了具有创造性和连贯性的故事,使用了多样化的标准、领导者和角色等关键组件。
  • C r i t i C S {\tt CritiCS} CritiCS 支持交互式写作,使人类用户能够介入评议并主动完善故事。

内容概述


使用大型语言模型(LLMs)生成几千字的叙事连贯的长篇故事一直是一项具有挑战性的任务。之前的研究通过提出不同的框架来解决这一挑战,这些框架创建了故事计划,并基于该计划生成长篇故事。然而,这些框架主要集中在维持故事的叙事连贯性上,往往忽视了故事计划中的创造力以及从这些计划中生成的故事的表现力,而这些都是吸引读者兴趣的理想特性。

论文提出了创意故事生成框架Collective Critics for Creative Story C r i t i C S {\tt CritiCS} CritiCS ),该框架由计划优化阶段( C r P l a n {\tt CrPlan} CrPlan )和故事生成阶段( C r T e x t {\tt CrText} CrText )组成,旨在将协同修订机制融入长篇故事生成过程中。

在每个阶段,多位LLM评审者评估草稿,并根据评估创造力的标准(例如,叙事流的独特性和生成文本的生动性)提供改进建议。然后,一位领导者选择最有帮助于优化草稿的评审意见。这个修订过程经过多轮迭代,最终生成一个完整的计划和故事

广泛的人类评估表明, C r i t i C S {\tt CritiCS} CritiCS 显著提高了故事的创造力和读者的参与度,同时也保持了叙事的连贯性。此外,该框架的设计允许人类作者在整个评审过程中以任何角色积极参与,从而实现故事创作中的人机互动协作。

CritiCS


C r i t i C S {\tt CritiCS} CritiCS 由两个阶段组成( C r P l a n {\tt CrPlan} CrPlan C r T e x t {\tt CrText} CrText ),利用大语言模型(LLM)的能力来创作创意故事,并将基于创意标准的评论过程纳入其中。

CrPlan

C r P l a n {\tt CrPlan} CrPlan 中,三个评论者根据三个标准评估故事计划的创造力:原创的主题和背景设置不寻常的故事结构和不寻常的结局。这种评估确保为故事注入多样化的元素,同时赋予其新颖感。

上表展示了一个优化计划的例子,其中主角的孤独感被拟人化,从而增强了叙事背景的独特性。

首先,三个评论者各自提供建议,以利用他们的独特专业知识来增强草稿计划。接下来,领导者对三个建议进行评估、排名,并选择其认为最佳的一个。然后,将所选择的建议应用于完善计划。

为了进行详细的评论,三个评论者被赋予与故事计划相关的专业角色。同时,领导者被具身为文学编辑或创意写作专家,负责调和任何冲突。

整个过程重复进行若干轮,之后,计划评估者审查每轮候选计划,以选出最终一个在创造力与连贯性之间有效平衡的计划。

CrText

C r T e x t {\tt CrText} CrText 中,两位评论者根据来自 C r P l a n {\tt CrPlan} CrPlan 的计划审查已创作的故事,使用两个关注创意文本表现力的标准:图像和声音。

上表展示了一个经过优化的文本示例,其中动词raised被替换为arched,使得短语更具独特性。

图像表示读者被生动的心理意象所激发的程度。这包括视觉图像、声音、气味、身体感觉和情感(例如,从月球发出的柔和光辉、阴郁的阴影)。声音则指作者在创造独特且易于识别的写作风格方面的成功程度(例如,以恐怖故事风格书写、俚语、像lol这样的非正式语言)。与 C r P l a n {\tt CrPlan} CrPlan 类似,领导者选择两个建议中的一个来完善表达。

C r P l a n {\tt CrPlan} CrPlan 不同,在此过程中评论者没有角色,因为图像和声音标准提供了明确的表达修改指示,消除了需要角色来固定故事主题的必要。同时,由于每轮中的句子都在不同程度上被修改,因此没有评估者。

人机交互写作

C r i t i C S {\tt CritiCS} CritiCS 能够促进人类写作者在修订过程中的积极参与,从而实现人类与机器在创意写作中的互动协作。人类参与者能够修改系统生成的评论或撰写自己的评论,也可以担任领导者的角色,负责评估和选择评论。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

<think>好的,我现在需要处理用户关于多智能体强化学习(MARL)的查询。用户想了解相关概念、算法和应用场景。首先,我要回忆一下MARL的基础知识,确保概念准确。多智能体系统涉及多个智能体在共享环境中互动,可能合作或竞争,这点需要明确。 接下来,用户提到的算法部分,我需要列举几个核心算法。MADDPG是一个关键点,记得它结合了集中式训练和分布式执行,解决环境不稳定的问题。还有QMIX和COMA,这些算法在值分解和信用分配方面有特点,需要简要说明其原理。 然后应用场景方面,参考引用里的内容,比如游戏AI、自动驾驶、无人机编队和资源分配,这些都是常见的例子,需要具体化每个场景,说明MARL如何应用其中。 用户还提到实现,可能需要给出一个简单的代码示例,比如MADDPG的结构,但要确保代码正确且符合Python语法。同时,要指出这只是简化版本,实际更复杂。 相关问题部分,要生成几个自然的问题,覆盖算法比较、挑战、与单智能体的差异以及实际案例,这样用户可以有进一步探索的方向。 最后,检查引用是否正确,引用[1]、[2]、[3]对应的内容是否准确,特别是引用[3]中提到的MADDPG解决了传统算法的不足,这一点要强调。同时,确保所有数学公式用$...$或$$...$$格式,比如策略梯度中的公式。 需要避免技术错误,例如混淆算法名称或错误描述其机制。另外,保持回答结构清晰,分点说明概念、算法、应用和实现,帮助用户逐步理解。可能还需要注意术语的一致性,比如“集中式训练”和“分布式执行”要准确无误。 现在整理这些思路,组织成符合用户要求的中文回答,确保每个部分都有逻辑连接,引用恰当,代码格式正确,并生成相关问题供用户参考。</think>### 多智能体强化学习(MARL)详解 #### 一、基本概念 多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是强化学习的扩展,研究**多个智能体**在共享环境中通过交互实现协同或竞争目标。与单智能体不同,MARL需解决以下核心问题: 1. **环境动态性**:每个智能体的策略变化会导致其他智能体的环境不稳定[^3]。 2. **信用分配**:在合作场景中,如何将全局奖励合理分配给个体。 3. **通信与协调**:智能体间如何高效共享信息或策略。 #### 二、核心算法 1. **MADDPG(Multi-Agent DDPG)** - **核心思想**:集中式训练(Critic网络使用全局信息),分布式执行(Actor网络仅依赖局部观测)[^3]。 - **数学表达**:对于第$i$个智能体的策略梯度: $$\nabla_{\theta_i} J(\theta_i) = \mathbb{E}\left[\nabla_{a_i} Q_i^{\pi}(s,a_1,\dots,a_N) \nabla_{\theta_i} \pi_i(a_i|s)\right]$$ - **代码片段**(简化版): ```python class MADDPG: def __init__(self, n_agents, state_dim, action_dim): self.critics = [CriticNetwork(state_dim * n_agents, action_dim * n_agents) for _ in range(n_agents)] self.actors = [ActorNetwork(state_dim, action_dim) for _ in range(n_agents)] ``` 2. **QMIX** - **特点**:通过混合网络将个体Q值组合为全局Q值,满足单调性约束:$\frac{\partial Q_{\text{total}}}{\partial Q_i} \geq 0$。 3. **COMA(Counterfactual Multi-Agent Policy Gradients)** - **信用分配**:使用反事实基线计算个体优势函数,公式为: $$A^i(s, a) = Q(s,a) - \sum_{a'^i} \pi^i(a'^i|\tau^i) Q(s, (a^{-i}, a'^i))$$ #### 三、应用场景 1. **游戏AI**:如《星际争霸》中多个单位协同作战,通过MARL实现战术配合[^2]。 2. **自动驾驶**:多车辆协作优化交通流,减少拥堵(如交叉路口协同通行)。 3. **无人机编队**:集群无人机实现目标搜索或编队飞行,需解决动态避障问题。 4. **资源分配**:在通信网络中分配频谱或计算资源,最大化系统效率[^2]。 #### 四、实现挑战 1. **非平稳性**:传统Q学习因环境动态性难以收敛,需引入经验回放改进。 2. **算法扩展性**:智能体数量增加时,计算复杂度呈指数增长。 3. **部分可观测性**:智能体通常仅能获取局部观测,需设计高效通信协议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值