NLP前沿研究成果大开源,百度PaddleNLP-研究版发布

百度推出了PaddleNLP研究版,基于飞桨深度学习平台,提供NLP领域的前沿研究代码与数据。已开源包括ACL2019、NAACL2019等会议的论文实现,覆盖信息抽取、对话、问答等领域。未来将开源更多如KTNET、SEEDS等模型,支持机器阅读理解、个性化对话等场景,降低研究者进入门槛。
摘要由CSDN通过智能技术生成

为了更好服务 NLP 研究者,百度 PaddleNLP 于近日完成了针对其研究能力的升级,即 PaddleNLP-研究版。

PaddleNLP-研究版旨在基于飞桨(PaddlePaddle)深度学习平台和百度 NLP 深厚的技术积累,为广大研究者提供 NLP 领域前沿方向的研究成果、代码与数据,让广大研究者们可以快速复现已发表学术论文的实验效果,并据此开展新的研究。

目前,PaddleNLP 已经开放了包括 ACL2019、NAACL2019、IJCAI2019、MRQA2019 等顶级 NLP 会议 5 篇最新论文,支持了 3 个竞赛的代码复现,配合开放了 2 个相关论文的数据集,包括 DuConv、MMPMS、MPM、ARNOR 等模型和数据,覆盖信息抽取、智能对话、问答、阅读理解、评论建议挖掘等领域。

未来,PaddleNLP 还将持续升级,开源更多百度大脑在 NLP 领域的研究成果,例如发表于 ACL2019 的 KTNET、SEEDS、STACL 等模型与框架,覆盖了机器阅读理解、个性化对话、同声传译、机器翻译等场景。

PaddleNLP 作为一个同时覆盖工业应用和学术研究的全方位工具与数据集,将持续依托飞桨和百度 NLP 强大的技术保障,让开发者以越来越低的门槛获取更多前沿的 NLP 技术,欢迎持续关注。

百度 PaddleNLP-研究版开源与即将开源项目概览

ACL2019-ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification

摘要:远监督通过知识库自动获取标注语料,是关系抽取的关键算法。但是远监督通常会引入大量噪声数据,即句子并未表达自动标注的关系。进一步说,基于远监督学习的模型效果不佳、解释性差,无法解释关系的指示词。为此,我们提出基于注意力正则化的 ARNOR 框架(Attention Regularization based NOise Reduction)。此方法通过注意力机制,要求模型能够关注关系的指示词,进而识别噪声数据,并通过 bootstrap 方法逐步选择出高质量的标注数据,改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。

应用价值:在文本信息抽取有广泛的应用价值。此方法能够显著降低对标注数据的依赖,实现低成本的基于知识库的自动关系学习,未来可落地在医疗、金融等行业信息抽取中。

  • GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-ARNOR?fr=gzh

ACL2019-DuConv:Proactive Human-Machine Conversation with Explicit Conversation Goals

摘要:目前的人机对话还处于初级水平,机器大多是被动对话,无法像人类一样进行充分交互。我们提出了基于知识图谱的主动对话任务,让机器像人类一样主动和用户进行对话。对话过程中,机器根据知识图谱主动引领对话进程完成提前设定的话题(实体)转移目标,并保持对话的自然和流畅性。为此,我们在电影和娱乐任务领域人工标注 3 万组共 27 万个句子的主动对话语料,并实现了生

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值