论文笔记
文章平均质量分 93
青云遮夜雨
这个作者很懒,什么都没留下…
展开
-
MoE新范式?解析DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models24
最近的研究和实践经验表明,在有足够训练数据的情况下,通过增加参数和计算预算来扩展语言模型可以显著提升模型性能。然而,必须承认,将模型扩展到极大规模的努力也伴随着极高的计算成本。考虑到这些高昂的成本,混合专家(Mixture-of-Experts, MoE)架构已成为一种流行的解决方案。它能够在保持计算成本适中的同时,实现参数扩展。最近在Transformer中应用MoE架构的成功尝试,已经将语言模型扩展到相当大的规模,并取得了显著的性能提升。这些成就突显了MoE语言模型巨大的潜力和前景。原创 2024-11-05 12:33:20 · 535 阅读 · 0 评论 -
从《Mixtral of Experts》开始讲讲MoE
我们介绍了,一种稀疏专家混合模型(Sparse Mixture of Experts,SMoE)语言模型。Mixtral 的架构与 Mistral 7B 相同,不同之处在于每一层由 8 个前馈块(即专家)组成。对于每个 token,在每一层中,路由网络会选择两个专家来处理当前状态并结合它们的输出。尽管每个 token 仅会接触到两个专家,但每个时间步选择的专家可以不同。因此,每个 token 可以访问到 470 亿个参数,但在推理过程中仅使用了 130 亿个活跃参数。原创 2024-11-04 21:09:55 · 501 阅读 · 0 评论 -
CompeteAI:模拟社会中的竞争(ICML2024)
基于该框架,我们将环境实现为一个小镇,其中包含两种实体:2家餐厅和50名顾客。顾客可以是个人或团体(例如家庭、情侣或同事),详情见附录C.2。我们假设每个顾客不会做饭,必须去其中一家餐厅用餐。为了简化观察,我们假设每个顾客每天应该在一家餐厅吃一次饭。为了盈利,餐厅必须竞争以吸引更多顾客。在本文中,餐厅和顾客都由基于LLM的代理驱动,即GPT-4(0613)(OpenAI, 2023)。具体来说,每家餐厅由一个代理管理,每天向顾客提供食物。原创 2024-10-16 14:34:11 · 644 阅读 · 0 评论 -
心智理论在LLM中真的有用吗?《Limits of Theory of Mind Modelling in Dialogue-Based Collaborative Plan Acquisition》
基于对话的人机协作是指人类与人工智能(AI)代理通过对话来实现共同目标或任务的互动(Streeck等人,2011)。当人类相互协作时,他们依赖于两种主要能力:语言交流和心智理论(Theory of Mind, ToM),即推断自己和他人心理状态的能力(Premack和Woodruff,1978)。因此,为了成功与人类协作,AI代理也必须具备类似的能力(Williams等人,2022)。原创 2024-09-18 17:11:23 · 848 阅读 · 0 评论 -
结合蒙特卡洛树算法与对话规划:论文解读《Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning》
为了引入用于对话策略规划的树搜索方法,我们首先将规划表示为马尔可夫决策过程(MDP)。系统和用户之间的一个tha0sysu1sysu1usrat−1sysutsysutusrha0sysu1sysu1usr...at−1sysutsysutusr其中,aisysa_i^{sys}aisys是第i轮中系统的对话行为,uisys。原创 2024-09-16 16:19:41 · 771 阅读 · 0 评论 -
更主动的对话规划者:PPDPP论文解读
论文引入了一种新颖的对话策略规划范式,利用一个可调的语言模型插件(命名为“即插即用对话策略规划器”PPDPP)来为大语言模型(LLM)制定策略。如图1(b)所示,PPDPP充当策略代理,预测对话代理在下一轮中应采取的对话策略。该策略首先可以通过现有的人类注释语料库进行有监督微调。然后,我们采用自我博弈范式,提示两个LLM(一个作为助手,一个作为用户)根据不同的案例背景信息进行角色扮演对话,以模拟对话代理和实际用户之间的多轮交互动态环境。原创 2024-09-15 20:56:37 · 1149 阅读 · 0 评论 -
融合直觉和理性:ACL2024《Planning Like Human: A Dual-process Framework for Dialogue Planning》解读
受心理学中的双重加工理论启发,该理论指出两种截然不同的思维模式——直觉(快速)和分析(缓慢),我们提出了“双重加工对话规划”(DualProcess Dialogue Planning, DPDP)框架。DPDP通过两种互补的规划系统体现了这一理论:在熟悉的上下文中采用直觉的策略模型,而在复杂和新颖场景中则使用深思熟虑的蒙特卡洛树搜索(MCTS)机制。原创 2024-09-13 17:09:27 · 1089 阅读 · 0 评论 -
GRACE:梯度引导的可控检索增强基于属性的生成
在本文中,我们提出通过梯度引导的可控检索(GRACE)来增强基于属性的生成,考虑到目标属性(见图1)。具体来说,我们训练一个鉴别器来计算给定上下文的属性分布。我们构建了一个检索库,存储了从未标注数据中提炼出的自然文本及其语义和属性信息。生成模型通过可控检索提取具有相似语义的与属性相关的信息。我们设计策略来从检索结果中分离无关属性,并将预训练语言模型(PLM)表示融入生成过程中。此外,我们提出了一个算法,该算法基于梯度迭代修正逐步生成。原创 2024-03-17 13:38:47 · 1016 阅读 · 0 评论 -
Multi-Attribute Controlled Text Generation with Contrastive-Generator and External-Discriminator
(1)提出了一种用外部判别器训练的对比生成器,以有效地生成具有所需属性的文本。还设计了 top-n 加权解码来进一步提高文本和所需属性之间的相关性。(2)我们进行了大量的实验来证明我们的方法可以在不牺牲语言质量的情况下生成具有所需情感和主题的文本。此外,我们的框架可以推广到新的控制代码,并在零样本生成上实现有希望的性能。原创 2024-03-14 13:32:54 · 949 阅读 · 0 评论 -
Controllable Natural Language Generation with Contrastive Prefixes:使用前缀微调指导多属性文本生成
(1)提出了一种新颖的框架,该框架利用带有冻结 LM 的前缀作为可控 GPT2 生成的轻量级替代方案。(2)提出了一种具有新颖目标的监督方法和无监督方法来进行前缀训练,其中考虑了前缀之间的关系并同时训练多个前缀。(3)这项工作为单方面控制和多方面控制提供了统一的视角。实验结果表明,我们的方法可以有效地指导单方面控制和多方面控制的生成。原创 2024-03-13 11:57:23 · 1048 阅读 · 0 评论 -
Attribute Alignment: Controlling Text Generation from Pre-trained Language Models:利用属性标签指导属性文本生成
在本文中,我们提出了属性对齐,将属性表示注入到预先训练的无条件 LM 中,而不改变 LM 参数。然而,由于在大规模预训练期间属性信号并未使用 LM 进行训练(Johnson et al., 2016;Keskar et al., 2019),因此我们引入了一个对齐函数来将属性表示桥接到 LM,以便它可以解释属性表示中的权重。简单来说,先使用LM对属性建模,然后使用属性对齐将其融合指导文本生成。原创 2024-03-12 20:13:07 · 840 阅读 · 0 评论 -
A Distributional Lens for Multi-Aspect Controllable Text Generation:一种创新性的多属性受控文本生成方法
正如上图所示,我们的方法主要涉及属性空间的构建,包括估算属性空间、搜索交集以及将交集映射到句子上。首先,我们旨在使用采样句子来构建一个属性空间,以尽可能准确地估计真实空间。我们采用了一个自编码器结构,其中潜在表征表示构成我们估计属性空间的点。为了确保我们的估计空间可靠地模型化属性,比如它们的概率分布和不同属性之间的关系,我们进一步附加了三个约束到表示上。(I)重构损失LRL_RLR旨在桥接属性空间中的点与自然属性相关句子之间的差距,这是通过内容反映的属性来恢复的。(II)属性分类损失LC。原创 2024-03-12 12:12:31 · 900 阅读 · 0 评论 -
DuNST详解:将Self-Training机制融入受控文本生成中
让xxx为文本,yyy为属性标签,DlxiyiDl{(xiyi)}是一个带有配对文本及其相应标签的标记数据集,DuxiDuxi是来自同一领域的无标记数据集。我们的目标是学习一个由θ\thetaθ参数化的属性可控生成器Ggθx∣yGgθx∣y(例如,一个大型的PLM),以生成高质量的文本x∼gθx∣yx∼gθx∣y(以自回归方式),满足给定的标签yyy。原创 2024-01-19 14:06:12 · 489 阅读 · 0 评论 -
BART论文解读:BERT和GPT结合起来会发生什么?
为了与当前摘要任务的最新技术进行比较,我们在两个具有不同特点的摘要数据集CNN/DailyMail和XSum上展示了结果。CNN/DailyMail中的摘要倾向于与源句子相似。抽取式模型在这里做得很好,甚至仅用前三个源句子作为基线的表现也非常有竞争力。尽管如此,BART在所有已有的工作中表现最好。相比之下,XSum高度概括,抽取式模型表现不佳。BART在所有ROUGE指标上大约比利用BERT的最佳前作提高了6.0分,这代表了在这一问题上性能的重大进步。在质量上,样本的质量很高(见第6节)。原创 2024-01-06 10:45:08 · 1472 阅读 · 1 评论 -
一种可扩展的多属性可控文本生成即插即用方法
相互干扰(MI)”是指在推理阶段(即零样本设置)时,多个单独训练但同时指导预训练模型的插件之间的干扰。然而,由于深度神经网络的复杂性,确切的干扰分析是困难的。直观上,如果在训练期间多个插件是同时优化的,这需要多方面标记的数据,它们的干扰将被最小化,因为它们已经学会在监督下合作地工作(即在监督设置中)。因此,我们使用在监督和零样本设置下隐藏状态的差异来近似估计多个插件的相互干扰。具体来说,让ϕiϕi和ϕiϕi分别是从单方面和多方面标记数据中学习的插件的参数。原创 2024-01-03 16:10:44 · 1031 阅读 · 0 评论 -
人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读
以“对口”为例。双人表演通常涉及两个角色,称为“捧哏”(简称“Peng”)和“逗哏”(简称“Dou”)。Dou的目标是通过语言和动作以滑稽的方式进行表演。Peng是支持角色,使对话更加流畅和清晰。Φu1v1u2v2uKvKΦ{(u1v1u2v2uKvK)}这是一个KKK轮的双向串话对话,包含2K个话语,其中K个来自于Dou(记为uuu)和KKK个来自于Peng(记为vvv请注意,uiu_iui和。原创 2023-12-27 21:22:17 · 527 阅读 · 0 评论 -
论文笔记:详解NEUPSL DSI
Dialog Structure Induction(DSI)是推断给定目标导向对话的潜在对话结构(即一组对话状态及其时间转换)的任务。它是现代对话系统设计和话语分析的关键组件。Probabilistic Soft Logic (概率软逻辑,PSL)是一种在统计关系学习和推理中使用的框架。它结合了逻辑编程的可解释性与概率模型的不确定性处理能力,适用于处理不确定和复杂的关系数据。原创 2023-11-25 20:53:37 · 574 阅读 · 0 评论 -
论文《Unsupervised Dialog Structure Learning》笔记:详解DD-VRNN
离散-可变循环变分自编码器(D-VRNN)和直接-离散-可变循环变分自编码器(DD-VRNN)概述。D-VRNN和DD-VRNN使用不同的先验分布来建模zt之间的转换,如红色实线所示。xt的再生成用蓝色虚线表示。状态级别的循环神经网络的循环关系以灰色虚线点划线表示。zt的推断过程以黑色虚线表示。原创 2023-11-22 16:29:55 · 451 阅读 · 0 评论 -
论文《A recurrent latent variable model for sequential data》笔记:详解VRNN
循环神经网络(RNN)可以接收一个可变长度的序列xx1x2...xT作为输入,并通过递归地处理每个符号同时维持其内部隐藏状态h。在每个时间步t,RNN读取符号xt并更新其隐藏状态ht∈Rphtfθxtht−11其中f是一个确定性的非线性转移函数,θ是f的参数集。转移函数f可以通过长短期记忆(LSTM)[9]或门控循环单元(GRU)[5]等具有门控激活函数的方式实现。原创 2023-11-21 17:03:15 · 370 阅读 · 0 评论 -
论文阅读笔记:Tailor A soft-prompt-based approach to attribute-based controlled text generation
(1)提出了一种基于软提示的属性驱动 CTG 方法,名为 Tailor。为了在统一的范式中同时包括单属性和多属性 CTG,Tailor 使用一组预训练的前缀来引导一个固定的PLM生成具有预定义属性的句子,然后有效地将它们连接起来生成多属性句子。(2)通过实验揭示了连续提示的组合能力。为了增强这种组合,在单属性 CTG 后探索了两种有效的策略,一种是无需训练的策略(MAP mask + RP sequence),另一种是需要训练的策略(MAP connector)。原创 2023-11-20 23:21:29 · 199 阅读 · 0 评论 -
论文阅读笔记:Seen to Unseen Exploring Compositional Generalization of Multi-Attribute Controllable Dialogu
(1)首次探索用于多属性可控对话生成的组合泛化,并发现现有模型缺乏对分布外的多属性组合的泛化能力。(2)提出了一种解耦的可控生成方法,DCG,它通过属性导向提示的共享映射学习从已见值到未见组合的属性概念,并使用解耦损失来分离不同的属性组合。(3)引入了一个统一的无需参照的评估框架,MAE,用于不同粒度的属性。我们建立了两个基准测试,并且充分的实验结果证明了我们的方法和评价指标的有效性。原创 2023-11-20 23:20:59 · 204 阅读 · 0 评论