《强化学习周刊》第66期:EMNLP2022强化学习论文推荐、DeepMind推出可探索的预训练强化学习...

No.66

智源社区

强化学习组

 习

dccefb9c2e1c77c8f1324473db0cfb66.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

1436f7625446829cd89b61575348ff7c.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

e748a874b5908a234c163ea4d130346e.jpeg

d94298d8c43dd7d6083651a66f983e4d.jpeg

4222fc34e6a49002096861a18e30f8aa.jpeg

6bf6b01613fd8090d12607b841df1c0a.jpeg

f6b8e6a0f7bf9e166d833c657b2ecd76.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第66期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

4ae6201f5fa3bbdaead87f4e22e46bc4.jpeg

701ce47ffb7b8e204c922198f17bb1f5.jpeg

db186687470f4b5da735fda5e3d1aa21.jpeg

f1ed279167314bec56698b5feb4c9463.jpeg

d60f3c90bca7c321ec22fdfa3e844037.jpeg

论文推荐

《强化学习周刊》共分四个板块,本周论文推荐板块为读者梳理了EMNLP2022的10篇强化学习相关研究论文,其中涉及到知识图推理、目标状态跟踪、文本编辑、可解释QA、多模态语义图的协同推理、优化离散文本、贝叶斯推断等;科研资讯为读者分享来自DeepMind推出的可探索的预训练强化学习;本次招聘版块为大家介绍来自惠灵顿维多利亚大学AI-SCC课题组的博后职位招聘(强化学习等方向);本次教程推荐板块为大家分享由上海交通大学张伟楠老师的《动手学强化学习》,该教程基于在强化学习研究和教学中的经验总结整理而成,旨在探索一种更好的强化学习的教学方式,为中国强化学习的人才培养贡献一份力量。

EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际会议,由ACL旗下SIGDAT组织,每年举办一次,Google Scholar计算语言学刊物指标中排名第二。EMNLP 2022将于2022年12月7日-11日在阿布扎比举办。

标题:SQUIRE: A Sequence-to-sequence Framework for Multi-hop Knowledge Graph Reasoning(BNRist:Yushi Bai | SQUIRE:一种多跳知识图推理的序列到序列框架)了解详情

简介:近年来,多跳知识图(KG)推理已被广泛研究,以提供具有证据路径的丢失链接的可解释预测。诸多研究都使用了基于强化学习(RL)的方法,这些方法学习导航到目标实体的路径。然而,都存在收敛速度慢和收敛性差的问题,并且当路径上缺少边缘时,它们可能无法推断出某条路径。本文介绍了SQUIRE,这是首个基于序列到序列的多跳推理框架,它利用编码器-解码器-变换器结构将查询转换为路径。该框架带来了两个好处:(1)它可以以端到端的方式学习和预测,从而实现更好更快的收敛;(2) 该Transformer模型不依赖现有的边来生成路径,并且可以灵活地完成路径上的缺失边,尤其是在稀疏的KG中。在标准和稀疏KG上的实验表明,该方法比现有方法有了显著的改进,同时收敛速度提高了4倍至7倍。

论文链接:https://arxiv.org/pdf/2201.06206v3.pdf

标题:A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems(清华大学SPMI:Hong Liu | 基于GPT架构和目标状态跟踪的增强型多域对话系统生成用户模拟器)了解详情

简介:为面向任务的对话系统(DS)的强化学习(RL)构建用户模拟器(US)已经受到越来越多的关注,然而,这仍然面临一些基本挑战。首先,目前尚不清楚我们是否可以利用预训练的语言模型来设计,例如,基于GPT-2的用户界面,以赶上最近先进的基于GPT-1的用户界面并与之交互。第二,美国的一个重要因素是用户目标可以被有效地纳入和跟踪;但如何灵活地集成目标状态跟踪,并为多域开发端到端可训练的US,仍然是一个挑战。本文提出了基于GPT-2架构和目标状态跟踪的生成式用户模拟器(GUS),以解决上述两个挑战。在MultiWOZ2.1上进行了广泛的实验。通过RL和GUS、经典的基于议程的用户模拟器(ABUS)和其他消融模拟器分别训练不同的DS,并对其进行跨模型评估、基于语料库的评估和人类评估。GUS在所有三项评估任务中都取得了优异的结果。

论文链接:https://arxiv.org/pdf/2210.08692.pdf

标题:Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering(华盛顿大学: Jiacheng Liu | Rainier:用于常识性问题解答的强化知识内省器)了解详情

简介:知识是推理的基础。最近的研究表明,当相关知识作为常识问答(QA)的附加上下文提供时,即使在最先进的技术之上,它也可以大大提高性能。其挑战是,在哪里以及如何找到高质量的、与问题相关的知识;从知识库中检索到的知识是不完整的,从语言模型中生成的知识也是不一致的。本文介绍了Rainier,即强化知识反省者,它学习生成与背景相关的知识来回答给定的问题。该方法从模仿GPT-3生成的知识开始,然后通过强化学习学习生成自己的知识,在强化学习中,奖励是基于提高的答题成绩而形成的。Rainier在9个不同的常识基准测试中表现出了实质性和一致性的性能提升:包括5个在模型训练中看到的数据集,以及4个不可见的数据集。该研究是首次报告,由比GPT-3小几个数量级的模型生成的知识,即使没有对知识本身的直接监督,也可能超过从GPT-3中得出的常识知识的质量。

论文链接:https://arxiv.org/pdf/2210.03078.pdf

标题:Text Editing as Imitation Game(University of Alberta:Ning Shi | 作为模仿游戏的文本编辑)了解详情

简介:文本编辑,如语法错误更正,自然产生于不完美的文本数据。现有研究将文本编辑框架为多轮序列标记任务,其中操作(如插入和替换)表示为标记序列。虽然研究较乐观,但这种编码的灵活性有限,因为所有操作都绑定到令牌级标记。本文将文本编辑重新定义为使用行为克隆的模仿游戏。并将传统的序列到序列数据转换为状态到动作演示,其中动作空间可以根据需要灵活。不是一次生成一个动作,而是引入双解码器结构来并行解码,同时保留动作标记之间的依赖关系,再加上轨迹增强,以缓解模仿学习经常遇到的分布偏移。在一组算术方程基准的实验中,该模型在性能、效率和鲁棒性方面始终优于自回归基线。该研究结果将为将序列级动作生成应用于自然语言处理的强化学习的未来研究提供帮助。

论文链接:https://arxiv.org/pdf/2210.12276.pdf

标题:RLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees(复旦大学& Amazon AWS AI: Tengxiao Liu|RLET:一种基于强化学习和蕴涵树的方法用于可解释QA)了解详情

简介:解释从问题到答案的推理过程对可解释的QA提出了挑战。最近提出的结构化推理格式,蕴涵树,能够在树状结构中提供明确的逻辑推理和蕴涵步骤。为了生成蕴涵树,先验的单遍序列到序列模型缺乏可见的内部决策概率,而逐步方法使用提取的单步数据进行监督,不能将树作为一个整体建模。本文提出了RLET,一种基于强化学习的蕴涵树生成框架,利用整个树的累积信号进行训练。RLET迭代执行带有句子选择和演绎生成模块的单步推理,训练信号通过精心设计的与评价一致的对齐奖励函数在树中积累。本文的研究是首次将RL引入蕴涵树生成任务。在EntailmentBank数据集的三种设置上的实验证明了使用此RL框架的优点。

论文链接:https://arxiv.org/pdf/2210.17095.pdf

标题:Reinforced Question Rewriting for Conversational Question Answering(亚马逊: Zhiyu Chen|用于对话式问题回答的强化问题重写)了解详情

简介:对话式问题回答(CQA)旨在回答包含在对话中的问题,这些问题在没有上下文的情况下是不容易解释的。开发一个模型将对话问题重写为独立的问题是行业环境中的一种新兴解决方案,因为它允许使用现有的单轮QA系统来避免从头训练CQA模型。以前的工作是利用人人工重写作为监督来训练重写模型。然而,这种目标与QA模型是脱节的,因此,更多类似人类的重写并不能保证更好的QA性能。本文提出使用QA反馈来监督强化学习的重写模型。实验表明,本文的方法可以有效地提高提取和检索QA的QA性能,超过基线。此外,人类评估表明,与人类注释相比,本文的方法可以产生更准确和详细的重写。

论文链接:https://arxiv.org/pdf/2210.15777.pdf

标题:Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation(北京大学: Xueliang Zhao|基于视频的对话生成的多模态语义图的协同推理)了解详情

简介:此研究基于视频的对话生成,其中基于对话上下文和相关视频生成响应。这项任务的主要挑战在于 (1) 将视频数据集成到预训练语言模型 (PLM) 中的难度,这给利用大规模预训练的力量带来了障碍;(2) 在整个推理过程中考虑各种方式的互补性的必要性。尽管在基于视频的对话生成方面取得了显着进展,但在以允许来自不同模式的信息相互补充的方式与 PLM 集成时,现有方法仍然存在不足。为了缓解这些问题,此研究首先建议从视频中提取相关信息,并将其转化为 PLM 可接受的推理路径。此外,本文提出了一种多智能体强化学习方法,以协作对不同模式(即视频和对话上下文)进行推理。在两个公共数据集上的实证实验表明,本文所提出的模型在自动和人工评估方面都大大优于最先进的模型。

论文链接:https://arxiv.org/pdf/2210.12460.pdf

标题:RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning(卡内基梅隆大学: Mingkai Deng|RLPrompt:使用强化学习优化离散文本提示)了解详情

简介:提示在使大型预训练语言模型(LM)能够执行多种NLP任务方面取得了令人印象深刻的成功。然而,自动找到每个任务的最佳提示是一项挑战。大多数现有的工作都依赖于调整软提示,这不具备可解释性、跨LM的可重用性以及梯度不可访问时的适用性。另一方面,离散提示很难优化,通常由“枚举-选择”启发式创建,这些启发式没有系统地探索提示空间。本文提出了RLPrompt,一种具有强化学习(RL)的高效离散提示优化方法。RLPrompt制定了一个参数有效的策略网络,该策略网络在有奖励的训练后生成期望的离散提示。为了克服大型LM环境下奖励信号的复杂性和随机性,引入了有效的奖励稳定,大大提高了训练效率。RLPrompt灵活地适用于不同类型的LM。少镜头分类和无监督文本风格转移的实验表明,与广泛的现有微调或提示方法相比,性能优越。

论文链接:https://arxiv.org/pdf/2205.12548.pdf

标题:CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning(华盛顿大学: Zeqiu Wu|CONQRR:使用强化学习进行检索的会话查询重写)了解详情

简介:与标准检索任务相比,对话式问答(CQA)的段落检索在理解当前用户问题方面提出了新的挑战,因为每个问题都需要在对话上下文中进行解释。此外,重新训练完善的检索器(例如最初为非会话查询开发的搜索引擎)可能会很昂贵。为了方便他们的使用,本文开发了一个查询重写模型 CONQRR,它将上下文中的对话问题重写为一个独立的问题。它使用一种新的奖励函数进行训练,以使用强化学习直接优化检索,并且可以适应任何现成的检索器。CONQRR 在最近包含来自三个不同来源的对话的开放域 CQA 数据集上实现了最先进的结果,并且对两个不同的现成检索器有效。本文的广泛分析还显示了 CONQRR 对域外对话以及零查询重写监督的稳健性。

论文链接:https://arxiv.org/pdf/2112.08558.pdf

标题:RL with KL penalties is better viewed as Bayesian inference(纽约大学: Tomasz Korbak|具有KL惩罚的RL更好地被视为贝叶斯推断)了解详情

简介:强化学习 (RL) 经常用于微调大型语言模型 (LM), RL 公式涉及将 LM 视为一项策略并对其进行更新以最大化捕获人类偏好的奖励函数的预期值。本文分析了将语言模型视为 RL 策略相关的挑战,并展示了如何避免这些挑战需要超越 RL 范式。作者首先观察到标准 RL 方法作为微调 LM 的目标存在缺陷,因为它会导致分布崩溃:将 LM 变成退化分布。然后,分析了 KL 正则化 RL,这是一种广泛使用的微调 LM 的方法,它还限制微调后的 LM 在 Kullback-Leibler (KL) 散度方面保持接近其原始分布。本文展示了 KL 正则化 RL 等价于变分推理:近似贝叶斯后验,它指定如何更新先验 LM 以符合奖励函数提供的证据。这种 KL 正则化 RL 的贝叶斯推理视图比通常采用的 RL 观点更具洞察力。贝叶斯推理视图解释了 KL 正则化 RL 如何避免分布崩溃问题并为其目标提供第一性原理推导。

论文链接:https://arxiv.org/pdf/2205.11275.pdf

ec6c7420f543224dfca32c2227abfbcc.jpeg

26d6d2886edcf5f18a1c24f22d429402.jpeg

a73815b82cb3bba284ac3348bfe4c8a1.jpeg

35a6d4d224a766a7ae07539b4ce413f4.jpeg

a08f59df10cc943745a529b00e97b776.jpeg

科研资讯

标题:算法蒸馏,DeepMind推出可探索的预训练强化学习了解详情

简介:近期,DeepMind研究人员根据实验结果,提出一种可行性:任何强化学习(RL)算法都可通过模仿学习“蒸馏”成足够强大的序列模型(如Transformer),并将其转化成上下文RL算法。上述的“蒸馏”则为DeepMind提出的算法蒸馏 (AD),这是一种通过使用因果序列模型对其训练历史进行建模,将RL 算法提取到神经网络中的方法。算法蒸馏将学习到强化学习视为跨集顺序预测问题。学习历史数据集由源 RL 算法生成,然后通过自回归预测动作来训练因果变换器,并将其先前的学习历史作为上下文。与提取学习后或专家序列的顺序策略预测架构不同,AD 能够完全在上下文中改进其策略,而无需更新其网络参数。相应实验也证明 AD 可以在具有稀疏奖励、组合任务结构和基于像素的观察的环境中进行语境强化学习,并发现AD学习的RL算法比产生源数据的算法更具有数据效率。

资讯链接:https://arxiv.org/pdf/2210.14215.pdf

5927469514d20cad2f8cc64943298d59.jpeg

5e57f090b0ec851cdb03fd9be59edd2c.jpeg

10a55c943af2b73047f9017bec4fc39c.jpeg

6b534c9962a6ec4ecbc5db2dfb18e2ff.jpeg

1283cc2741d2f31feec5dba19c5daffe.jpeg

招聘信息

标题:惠灵顿维多利亚大学AI-SCC课题组招博后(强化学习等方向)了解详情

简介:马教授和陈博士领导的AI for Service and Cloud Computing (AI-SCC)课题组(研究团队)在云计算和进化计算方向有很高的国际知名度。他们的主要研究方向为概念建模、云计算、服务组合、服务部署、服务资源分配、强化学习、以及多智能主题系统。目前已在著名国际杂志及重要国际学术会议上发表论文200多篇。AI-SCC 研究团队目前拥有20多名教职工、研究人员和博士生。团队多个成员在国际或新西兰有着非常好的声誉,并与多个知名国际或国内科研院所保持着非常好的合作关系。

应聘要求:有博士学位或即将获得博士学位;具有进化计算、强化计算、云计算、物联网等领域的研究经验;在本领域发表过高质量论文 ;优秀的英语写作和交流能力 ;较强的人际交往能力及适应能力 。请将详细的个人简历(英文)邮件发送至hui.ma@ecs.vuw.ac.nz或aaron.chen@ecs.vuw.ac.nz

招聘链接:https://ecs.wgtn.ac.nz/Groups/AISCC/

410b60d2b42174eebb8711358716e813.jpeg

7851c38489aac58e16a6f6f54aa91f52.jpeg

ee9dafd527199a1ddef9b778fdf92d35.jpeg

6dc16bd8b031ed46f60f74c9d86c0aac.jpeg

685066bd70c00a388a263e19ff4cce0e.jpeg

教程推荐

标题:动手学强化学习了解详情

简介:《动手学强化学习》是由上海交通大学张伟楠老师基于在强化学习研究和教学中的经验总结整理而成,教程提供 jupyter notebook 文档和视频课程,旨在探索一种更好的强化学习的教学方式,为中国强化学习的人才培养贡献一份力量。教程主要包括:强化学习基础中关于强化学习的基本概念和基础的表格型强化学习算法;强化学习进阶中关于深度强化学习的思维方式、深度价值函数和深度策略学习方法;强化学习前沿中关于模仿学习、模型预测控制、基于模型的策略优化、离线强化学习、目标导向的强化学习和多智能体强化学习。

教程链接:http://hrl.boyuai.com/chapter/intro

6e31774d24fb7069649cff4d9bf44fef.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

7f387d3cae957a52afd59780ea7c2f19.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值