nlp自然语言处理_自然语言处理(NLP)论文资料

本文是对网上的NLP论文资料的收集和整理

综合性资料

1.NLP Progress

  • 本文对记录自然语言处理(NLP)领域的新进展,并概述最常见的NLP任务及其相应数据集的新技术,涵盖了目前NLP领域常用任务的最佳实验 结果和数据集资源。
  • 新智元介绍:新智元专栏
  • 原文介绍:https://nlpprogress.com/
  • Github链接:https://github.com/sebastianruder/NLP-progress

2.State of the Art

  • 来自 MIT 和 UNAM 的四名学生构建了一个收录了最优算法的网站,汇总人工智能各领域学术论文最先进成果。他们按领域、任务和数据集采集了最先进水平(SOTA)的论文,并为不同的任务提供了不同的性能度量标准。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2018-12-10-12
  • 原文介绍:https://www.stateoftheart.ai/
  • GitHub链接:https://www.stateoftheart.ai/

语言表示模型

1.XLNet

CMU 与谷歌大脑提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果。令人激动的是,目前 XLNet 已经开放了训练代码和大型预训练模型。

  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-06-20-9
  • 论文链接:https://arxiv.org/pdf/1906.08237.pdf
  • 预训练及开源代码:https://github.com/zihangdai/xlnet

2. ERNIE

  • 本文就提出了一种方法,将知识图谱的信息加入到BERT模型的训练中,这样模型就可以从大规模的文本语料和先验知识丰富的知识图谱中学习到字、词、句以及知识表示等内容,让BERT掌握更多的人类先验知识,让预训练语言模型也能变得”有文化“,从而有助于其解决更加复杂、更加抽象的自然语言处理问题。
  • PaperWeekly介绍:https://zhuanlan.zhihu.com/p/67936689
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-26-4
  • 论文链接:https://arxiv.org/pdf/1905.07129.pdf
  • 源码链接:https://github.com/thunlp/ERNIE

3. XLM

  • Facebook AI Research发布了XLM模型,在原有的BERT模型上进行了预训练目标升级,成功地将BERT扩展成了跨语言模型,并在跨语言数据集上取得了很好的成果。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-29
  • 论文链接:https://arxiv.org/pdf/1901.07291v1
  • 源码链接:https://github.com/facebookresearch/XLM

智能客服/智能语音对话

1. 基于多任务学习的智能客服下文检测方法

  • 在智能客服领域,用户的诉求隐含在与客服多轮交互的会话文本中,那么在确定用户意图的情况下,如何确定下文与意图的关联关系成为本文探索的主要课题。目前大多的语义匹配方法并没有考虑到意图信息,只考虑了句子间关系,这不符合智能客服下文关系检测的需求。因此,本文基于多任务学习思想,同时实现意图识别和语义匹配两种任务,从而使得模型具有下文关系检测的能力
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-28-14
  • 源码链接:[暂无]

2. 数据堂开源1505小时中文普通话语音数据集

  • 5月20日,数据堂推出AI数据开源计划,面向高校和学术机构等非商业组织群体,首次开源的数据集为:1505小时中文普通话语音数据集。该数据集是目前业内数据量最大、句准确率最高的中文普通话开源数据集
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-20-10
  • 数据获取方式:https://www.datatang.com/webfront/opensource.html

3.阿里语音与信号处理技术精选集

  • 不管是语音文书速记、在线购物、儿童教育或者是智能家居,它正在让生活变得更加便捷、智能以及富有趣味,甚至离不开。为了帮助更多技术人深入了解AI语音的落地实践,阿里技术发布《阿里机器智能:语音与信号处理技术精选专辑》电子书。这本书共计五篇内容,分别涵盖了语音识别、语音合成以及情感识别三个语音技术领域的重要方向。
  • 介绍链接:阿里技术
  • 下载链接:https://yq.aliyun.com/download/3588

开放域问答

1.融合角色信息的多样性对话生成

  • 构建能够通过图灵测试[1]的开放域(Open domain)对话系统一直是人工智能研究的重要目标。在实际的应用中,开放域对话系统通常用于与用户建立联系,并在较长的一段时间内陪伴用户[2]。因此,开放域对话在内容上越丰富越好;同时,对于某一句输入,通常也会有不止一句的可用回复。对话内容的多样性可以直观的定义为:对于同样的或者意思相近的输入,系统能够给出用词或者句式不重复、表达不同含义的回复。这种“一对多”(One-to-many)的性质是对话生成任务区别于其它机器学习任务的一个重要特点。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-06-03-17
  • 论文链接:https://arxiv.org/abs/1905.12188

2.

基于文档门控制器的开放域问答

  • 近年来,随着机器阅读理解技术的发展,越来越多的开放域问答方法采用了机器阅读理解技术生成答案。搜狗公司&中科院自动化所在今年的SIGIR2019中联合提出了一个基于文档门控机制的阅读算法,并将其用在开放域问答中,在很多开放域问答应用中取得了最好的效果。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-24-3
  • 源码链接:[暂无]

文本转语音(TTS)

1. FastSpeech

  • 一种基于 Transformer 的新型前馈网络,用于为 TTS 并行生成梅尔频谱。实验表明,本文的并行模型在语音质量方面达到了自回归模型的水平,而且与自回归 Transformer TTS 相比,本文的模型可以将梅尔频谱生成速度提高270倍,将端到端语音合成速度提高38倍。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-06-01
  • 论文链接:https://arxiv.org/pdf/1905.09263.pdf
  • 源码链接:https://speechresearch.github.io/fastspeech/

知识图谱

1. 开放学术图谱(OAG)2.0版本

  • 开放学术图谱(OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术(MAG)和AMiner。OAG 2.0完善了微软学术(MAG)论文数据,更新版本添加了以下论文属性:论文引用关系、论文研究领域(fields of study)、索引后的论文摘要、论文作者机构。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-23-7
  • 论文链接:http://c7.gg/f7GnH
  • 访问网址: https://www.aminer.org/oag2019

机器翻译

1. 谷歌推出全新端到端语音翻译系统

  • 要将一个外国人说的话翻译成本国文字,通常需要两种机器学习模型:语音识别和文本翻译。最近,谷歌提出的 Translatotron 模型创造性地实现了单一模型端到端(End-to-End)的直接语音翻译。不仅如此,它还可以保留说话人的声音特征输出语音,实现最直接的翻译。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-05-16-13
  • 论文链接:https://arxiv.org/abs/1904.06037
  • 源码链接:[暂无]

文本分类

1.一文综述经典的深度文本分类方法

  • 笔者整理最近几年比较经典的深度文本分类方法,希望帮助小伙伴们了解深度学习在文本分类中的应用。
  • 文章链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/91350132

分布式训练

1.科学交换信息,降低分布式通讯成本

  • 随着深度模型越来越强大,它的通讯成本和需要的算力也急剧增长。因此,设计一个高效的分布式训练框架非常重要。在本文中,概述了分布式计算的核心概念,并讨论一篇优秀的 ICML 2019 论文,该论文提出一种压缩梯度算法,可以将通讯成本降低 95%。
  • 机器之心介绍:https://www.jiqizhixin.com/articles/2019-06-19-2
  • 论文链接:https://arxiv.org/abs/1810.07766/
  • 论文链接:https://arxiv.org/abs/1905.05957/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值