为了更好服务 NLP 研究者,百度 PaddleNLP 于近日完成了针对其研究能力的升级,即 PaddleNLP-研究版。
PaddleNLP-研究版旨在基于飞桨(PaddlePaddle)深度学习平台和百度 NLP 深厚的技术积累,为广大研究者提供 NLP 领域前沿方向的研究成果、代码与数据,让广大研究者们可以快速复现已发表学术论文的实验效果,并据此开展新的研究。
目前,PaddleNLP 已经开放了包括 ACL2019、NAACL2019、IJCAI2019、MRQA2019 等顶级 NLP 会议 5 篇最新论文,支持了 3 个竞赛的代码复现,配合开放了 2 个相关论文的数据集,包括 DuConv、MMPMS、MPM、ARNOR 等模型和数据,覆盖信息抽取、智能对话、问答、阅读理解、评论建议挖掘等领域。
未来,PaddleNLP 还将持续升级,开源更多百度大脑在 NLP 领域的研究成果,例如发表于 ACL2019 的 KTNET、SEEDS、STACL 等模型与框架,覆盖了机器阅读理解、个性化对话、同声传译、机器翻译等场景。
PaddleNLP 作为一个同时覆盖工业应用和学术研究的全方位工具与数据集,将持续依托飞桨和百度 NLP 强大的技术保障,让开发者以越来越低的门槛获取更多前沿的 NLP 技术,欢迎持续关注。
百度 PaddleNLP-研究版开源与即将开源项目概览
ACL2019-ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification
摘要:远监督通过知识库自动获取标注语料,是关系抽取的关键算法。但是远监督通常会引入大量噪声数据,即句子并未表达自动标注的关系。进一步说,基于远监督学习的模型效果不佳、解释性差,无法解释关系的指示词。为此,我们提出基于注意力正则化的 ARNOR 框架(Attention Regularization based NOise Reduction)。此方法通过注意力机制,要求模型能够关注关系的指示词,进而识别噪声数据,并通过 bootstrap 方法逐步选择出高质量的标注数据,改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。
应用价值:在文本信息抽取有广泛的应用价值。此方法能够显著降低对标注数据的依赖,实现低成本的基于知识库的自动关系学习,未来可落地在医疗、金融等行业信息抽取中。
-
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-ARNOR?fr=gzh
ACL2019-DuConv:Proactive Human-Machine Conversation with Explicit Conversation Goals
摘要:目前的人机对话还处于初级水平,机器大多是被动对话,无法像人类一样进行充分交互。我们提出了基于知识图谱的主动对话任务,让机器像人类一样主动和用户进行对话。对话过程中,机器根据知识图谱主动引领对话进程完成提前设定的话题(实体)转移目标,并保持对话的自然和流畅性。为此,我们在电影和娱乐任务领域人工标注 3 万组共 27 万个句子的主动对话语料,并实现了生