《强化学习周刊》第8期:强化学习应用之自然语言处理

No.08

智源社区

强化学习组

 习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,它在自然语言处理领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第8期《强化学习周刊》。本期周刊整理了近期强化学习在自然语言处理方面相关的最新论文推荐、研究综述、研究动态、新工具等,以飨诸位。

 

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

 

本期贡献者:(任黎明,刘延龙、赟瑾)

论文推荐

强化学习近年来取得了令人瞩目的成就,将其应用于自然语言处理领域也取得较大的进步。将NLP的任务看作一个序列决策问题,从语言中提炼出奖励及动作所处的文本环境。此外,强化学习在文本生成中具有不断试错的应用优势、在对话系统中通过将专家知识对未来的代理进行奖励建模,学习对话策略及策略决策等。故将强化学习应用于自然语言处理领域具有较大的优势。

强化学习在自然语言处理领域中的应用越来越多,其在文本生成、机器翻译、等方面都有了深入的应用。本次推荐了7篇强化学习在自然语言处理领域应用的相关论文,主要涉及到文本生成、机器翻译、会话式问答、个性化对话框生成、抽象句子摘要、学习奖励等。

 

标题:Constrained Text Generation with Global Guidance -- Case Study on CommonGen(基于全局引导的约束文本生成——以CommonGen为案例研究)了解详情

 简介:本文研究了约束文本生成,即在一定的前提条件下生成句子。将基于一组概念生成文本的任务CommonGen,作为约束文本生成的典型案例。传统方法主要依靠有监督的训练来最大化目标句的可能性。然而,诸如常识和覆盖范围之类的全局约束不能被纳入自回归解码过程的似然性目标中。本文考虑使用强化学习来解决这一局限性,用综合得分来衡量全局约束,包括流畅性、常识和概念覆盖,作为对强化学习的奖励。此外,还在词、片段和句子三个层面设计了一种引导解码方法。实验结果表明,与基线模型相比,该方法显著提高了概念覆盖率,并在总体上提高了各种自动评价和人工评价的得分。

论文链接:https://arxiv.org/pdf/2103.07170.pdf

 

标题:Exploiting Multimodal Reinforcement Learning for Simultaneous Machine Translation(利用多模式强化学习进行同声机器翻译)了解详情

 简介:本文通过探讨两个主要概念来解决同声机器翻译(SiMT)问题:(a)自适应策略,在高翻译质量和低延迟之间找到一个良好的平衡点;(b)通过提供可能产生文本输入之前可用的其他(视觉)上下文信息来支持此过程的视觉信息。为此,本文提出了一种使用强化学习的多模式方法同声机器翻译方法,该方法具有在代理和环境中集成视觉和文本信息的策略。并探讨了不同类型的视觉信息和集成策略如何影响同声翻译模型的质量和延迟,并证明了视觉提示可以在保持较低延迟的同时提高翻译质量。

论文链接:https://arxiv.org/pdf/2102.11387.pdf

 

标题:Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs(基于知识图会话问答中重构的强化学习)了解详情

简介:针对现有的知识图(KG)上ConvQA的最新方法只能从流行基准中发现的清晰的问题/答案对中学习,而现实中用户很少会明确地将答案标记为正确或错误的难题。本文提出了Conqer:一种基于RL的KGs会话QA的方法,其中用户以高度口语化和不完整的形式提出特定的后续问题。对于这种ConvQA设置,CONQUER将应答过程建模为多个代理在KG上并行运行,其中运行由使用策略网络采样的动作确定。该策略网络将问题以及对话上下文作为输入,并通过从重新制定可能性中获得的噪声奖励进行训练。通过基于用户研究的基准实验表明,Conqer的性能优于最先进的ConvQA基线,并且Conqer对各种噪声具有鲁棒性。

论文链接:https://arxiv.org/pdf/2105.04850.pdf

 

标题:Multitask Learning and Reinforcement Learning for Personalized Dialog Generation: An Empirical Study(用于个性化对话框生成的多任务学习和强化学习:一项实证研究)

了解详情

简介:该论文提出了一种个性化对话系统,该系统利用了多任务学习和强化学习的优势来进行个性化对话生成(MRPDG)。具体来说,MRPDG包含两个子任务:1)作者配置文件模块,可从输入句子中识别用户特征(辅助任务);2)个性化对话框生成系统,可使用强化学习算法生成信息性,语法性和连贯性的响应(主要任务)。作者提出了三种奖励来产生高质量的对话。文章调查了三种广泛使用的强化学习方法的有效性(即Q学习,策略梯度,和AC算法),并证明AC算法在底层框架上达到了最佳效果。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9025776

 

标题:FAR-ASS: Fact-aware reinforced abstractive sentence summarization(FAR-ASS:事实意识增强的抽象句子摘要)了解详情

简介:自动摘要系统为当今文本数据的空前增长提供了有效的解决方案。对于诸如数据挖掘和信息检索之类的实际任务,所生成摘要的事实正确性至关重要。但是,现有模型通常着重于提高信息性,而不是优化事实正确性。该文章提出了一个事实意识增强的抽象句摘要框架,以提高神经抽象摘要模型(FAR-ASS)的事实正确性。具体来说,其开发了一种利用OpenIE(开放信息提取)和依赖解析器工具提取结构化事实元组的自动事实提取方案。然后,为了定量评估事实的正确性,定义了一个事实正确性评分函数,该函数考虑了事实准确性和事实冗余。文章进一步建议采用强化学习,通过共同优化混合目标学习功能来提高可读性和事实正确性。

论文链接:http://www.researchgate.net/publication/348604749_FAR-ASS_Fact-aware_reinforced_abstractive_sentence_summarization

 

标题:Implicit Unlikelihood Training: Improving Neural Text Generation with Reinforcement Learning(隐式非似然训练:用强化学习改善神经文本生成)了解详情

简介:在语言模型中,研究表明向正则化中加入损失函数可通过协助避免不必要的特征来改善文本生成性能。本文提出了通过使用并优化策略梯度强化学习方法来对语言模型进行微调的方法,以获得更好的生成性能,并用此方法来最小化生成文本中的重复片段。本文提出的隐式非似然训练是一种通过利用策略梯度强化学习方法来微调语言模型的一种正则化输出的算法。实验表明,本文方法在与最小化非似然损失结合时刻减少重复片段并降低困惑度,而对语言模型质量无影响。

论文链接:https://arxiv.org/abs/2101.04229

 

标题:Learning Rewards from Linguistic Feedback(从语言反馈中学习奖励)了解详情

简介:语言系统中的交互学习的先验知识多半假设其输入形式较为特殊,而智能体学习的挑战在于如何将其行为和环境下的自然反馈进行翻译,以推理教师的偏好。本文则研究了将非约束自然语言反馈作为智能体的学习信号的方法,并提出了一个可避开上述假设的框架,使用基于面向的情感分析来将反馈分解为关于MDP特征的情感信息,并利用逆强化学习方法来将特征向的情感信息回退,以对教师的潜在奖励方程进行推理,可从人类交互中端到端的预测潜在奖励。实验表明,本文方法对在推理网络的性能上有极大改善。

论文链接:https://www.aaai.org/AAAI21Papers/AAAI-9953.SumersT.pdf

研究综述

基于强化学习的语言处理:研究综述了解详情

简介:本文综述了使用强化学习算法解决不同自然语言处理的问题(解析和语言理解、文本生成系统、机器翻译、对话系统)。其中一些问题将强化学习作为主要算法,如对话管理系统。在另一些研究中,强化学习只是在一定程度上被用来帮助解决中心问题。在这类问题中,RL算法都通过状态和动作的自适应探索,在控制策略的优化中发挥了重要作用。随着强化学习算法的研究发展,特别是应用深度神经网络代替价值函数和策略函数的算法,使得强化学习在解决某些最重要的自然问题中发挥着重要的作用。最后,本文阐述了自然语言处理中识别用户的输入、内部表示学习、探索领域知识、嵌入式开发、语言演化、词向量、智能对话系统、评估对话系统、文件编辑RL助理等研究方向可能受益于强化学习研究的不断发展。

论文链接:https://arxiv.org/pdf/2104.05565.pdf

 

心理健康中的机器学习和自然语言处理:系统评价了解详情

简介:该文章在方法和技术上总结和表征了使用机器学习和NLP技术进行心理健康的研究,并叙述了这些方法在精神卫生临床实践中的潜在用途。文章综述了58篇相关论文,分为三个主题:医疗数据库中的患者,急诊室中的患者以及社交媒体用户。得到如下结论:机器学习和NLP模型近年来已成为医学界的热门话题,并可能被视为医学研究的新方向。但是,这些手段往往只是用来证实临床假设,而不是开发全新的信息,并且仅针对于人群的一个主要类别(即社交媒体用户)。此外,某些特定于语言的功能可以提高NLP方法的性能,因此应更仔细地研究其对其他语言的扩展。但是,机器学习和NLP技术可从未经探索的数据(即护理人员通常无法获得的患者的日常习惯)中提供有用的信息。在将其视为精神卫生保健领域的其他工具之前,道德问题仍然存在,研究者们应及时进行讨论。

论文链接:https://www.jmir.org/2021/5/e15708

 

标题:A Survey: 基于音频的应用的深度强化学习了解详情

简介:深度强化学习可应用于音频信号处理中以直接从讲演、音乐和其他声音信号中进行学习,以创建基于音频的、在现实世界中有许多前应用的自动系统。本文通过将在讲演与音乐相关领域中的研究进行结合的方式,对于DRL在音频领域中的应用及发展做了介绍,如自动语音识别ASR、口语对话系统SDS、语音情感识别SER、音频增强、音乐生成以及由音频驱动的机器人等。

论文链接:https://arxiv.org/abs/2101.00240

 

标题:社交机器人中的强化学习了解详情

简介:交互在强化学习和社交机器人中都是一个关键部分,它对于具有嵌入式社交机器人的现实世界交互来说是一个非常合适的方法。本文主要对强化学习在社交机器人和现实世界中人类和机器人之间的交互中个应用的研究加以介绍,并对基于强化学习中已存在的方法和回报机制的设计进行了分类。同时将沟通能力作为重点,讨论了在回报建模中的沟通媒介。强化学习用于社交机器人拥有其优势与挑战,本文也略作概述。对于开始学习将强化学习用于此领域的研究者来说,本文是一个很好的综述型文章。

论文链接:https://www.mdpi.com/1424-8220/21/4/1292

研究动态

华为诺亚方舟实验室自然语言处理方向23项研究成果被ACL/ICML 2021录用了解详情

简介:华为诺亚方舟实验室在自然语言处理领域的23项研究成果被自然语言处理领域国际会议ACL-IJCNLP 2021(含Findings of ACL)和机器学习领域国际会议ICML 2021录用,研究方向主要涵盖高效预训练语言模型、模型分析和评估、机器翻译和多语言处理、对话与问答系统、预训练理论等。本文将分不同方向,概要介绍其中的部分成果,后续将带来相关研究成果的详细介绍。

新工具

NLPGym-在自然语言处理任务中评估RL代理的工具箱了解详情

简介:本文介绍并演示了NLPGym在解决NLP任务中DRL的应用。该工具箱的初始版本包含三个标准任务的环境(即提出的NLPGym工具箱由用于学习自然语言处理任务的交互式环境组成。它包括三个任务的环境:序列标记、问题回答和多标签序列分类),这些任务可以与默认组件和数据集一起使用。本文的研究结果作为简单的基线,以促进NLP环境下RL的研究和基准测试。此外,未来的工作还有一个明确的方向:发布其他NLP任务的环境,例如文本摘要、生成和翻译。作者相信NLPGym会成为测试代理学习语言和理解的标准工具箱。

 

TextFlint:用于自然语言处理的统一多语言健壮性评估工具包了解详情

简介:针对不同的自然语言处理(NLP)任务从不同的角度提出了各种鲁棒性评估方法。这些方法通常集中于通用或特定于任务的概括功能。在这项工作中,作者为NLP任务提出了一个多语言鲁棒性评估平台TextFlint,该平台结合了通用文本转换,特定于任务的转换,对抗性攻击,子群体及其组合,以提供全面的鲁棒性分析。TextFlint使从业人员可以从各个方面自动评估他们的模型,或仅需几行代码即可根据需要自定义评估。

 

自然语言处理:基于面向对象知识库和多级语法库的NLP工具箱了解详情

简介:本文介绍了一个基于面向对象知识库和多级语法库的NLP工具箱。该工具集以语义分析为核心,解析过程中的所有过程都是根据语法规则和知识进行的,而不是根据神经网络中的数十亿个参数进行的,这使得解析过程更易于解释。此外,该工具包还可以自行发现新的语法和知识,并且新发现的语法和知识易于更新和操作,使系统更易于进化。这个过程可以反复多次以不断改进工具箱。

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值