a609640147-CSDN博客

原创使用外部信息源的信息性图像描述

针对现有图像描述任务信息性较差的问题，本文针对Transformer进行改进，将图像信息和细粒度的标签信息整合到图像标题中，并通过控制标题中实体标签的表达形式，从而使生成的标题即流畅并内容丰富。论文地址:https://arxiv.org/abs/1705.07878引言自动图像描述可以帮助视力障碍人士获取网络上的图像信息，但是它的可用性和它所包含的信息量成正比。通常一个好的模型会提供...

2019-08-06 18:27:33 515

原创 ACL2019|最佳长论文|减小神经机器翻译训练与推理之间的距离

神经机器翻译(NMT)根据上下文单词来预测下一个词，并按照序列生成整个目标句子。在训练时，它以正确标注的单词作为上下文进行预测，而在推理时，它只能从头开始生成整个序列。训练和推理的差异造成了整个过程的误差累积。除此之外，词级别的训练要求生成的序列和正确标注的序列严格匹配，这会导致对不同于正确标注序列但是合理翻译的句子的过度校正。这篇文章提出了一种新颖的解决方法，在训练阶段，模型不仅从正确标注的序列...

2019-08-05 13:00:06 1190

原创 AAAI-2016 | 使用孪生递归网络的句子语义相似度计算方法

本文《Siamese Recurrent Architectures for Learning Sentence Similarity》提出了一种使用孪生递归网络来计算句子语义相似度的方法。首先，使用LSTM将不定长的两个句子编码为固定尺寸的特征，再通过manhattan距离来衡量特征之间距离。论文地址:https://dl.acm.org/citation.cfm?id=3016291...

2019-08-02 18:01:05 1824

原创 NAACL 2019 | 用异构表示法连接语言和知识的神经网络关系抽取模型

知识库(Knowledge Base)包含大量真实世界的结构化信息，被广泛用于各种自然语言处理任务，例如语义搜索与智能问答。在关系抽取(Relation Extraction)模型中，加入知识库嵌入信息(Knowledge Base Embeddings)，可以提高模型效果。尽管关系抽取与知识库嵌入关系密切，但很少有尝试系统地统一这两个模型，本文建立一个框架，统一这两个模型的学习过程，并在关系抽取...

2019-08-01 18:31:04 586

原创 AAAI 2019 | DRCN：基于密集连接和注意力机制的语义匹配方法

本文借鉴了DenseNet的思想，提出了一种密集连接的带有注意力机制的循环网络结构（DRCN）。网络中每一层的输入均由当前的特征表示、attention表示、上一层的隐藏层输出表示三部分拼接构成，并引入了自编码结构来解决不断增长的特征维度问题。本文在句子语义匹配相关数据集上进行了实验，结果表明DRCN能够在大部分任务上达到目前最优水平。论文地址:https://arxiv.org/abs/...

2019-07-31 17:59:06 2149

原创 AAAI 2019 | 基于图卷积网络的文本分类

文本分类任务是NLP领域一个重要和经典的问题，先前的工作利用CNN进行了很多尝试，但是却鲜有使用GCN来建模。作者提出了使用Text GCN来进行文本分类任务，基于词共现和文档词关系为一个语料建立一个单独的文本图，然后为语料学习Text GCN模型。该模型通过One-hot表示为词和文档初始化，然后联合学习词和文档的Embedding。实验结果表明，在没有任何外部的词Embedding和知识的情况...

2019-07-30 18:30:45 7498

原创 CNM：用于匹配的可解释复值网络

本文提出了以量子概率来驱动神经网络模型，从而进行语义的表示。具体的，以量子里的基本状态来表示NLP里的基本单元，并逐层向上构建出词及句子等元素的表示。论文地址:https://arxiv.org/abs/1904.05298引言神经网络虽然取得了巨大的成就，但其可解释一直较差。本文根据Lipton的说法，主要解释为事后解释性或透明度，事后解释性通常在模型训练完成之后再进行解释，而透明性...

2019-07-29 18:24:35 1903

原创 ACL 2019 | ReCoSa：多轮对话生成中利用自注意力检测相关上下文

在多轮对话生成中，大多数情况下答复仅仅与一部分上下文相关。一个完美的模型应该具有能力检测到这些相关的上下文，并根据它生成恰当的答复。常用的层次循环端到端模型(HRED)对上下文并不做区分，这会损害答复生成过程。本文提出了一种新颖的模型(ReCoSa)，其能通过自注意力检测到相关上下文。基于自注意力机制(self-attention mechanism)在处理长程依赖的优势，本文提出一种新模型结构(...

2019-07-26 19:44:02 1417 1

原创 Horovod：简单快速的分布式学习框架

训练现代深度学习模型需要大量计算，通常由多个GPU提供。这会遇到如下问题，第一，必须支持GPU间通信，取决硬件支持，这种通信会产生重大开销。其次，用户必须修改训练代码，以利用GPU间通信。所需的修改可能是重要的或很小的。在TensorFlow库下，启用多GPU训练需要不可忽视的通信开销，并要求用户大量修改他们的代码。在本文中我们介绍Horovod，一个开源库：它通过环形拓扑结构来实现高效的GPU间...

2019-07-25 18:18:25 2005

原创 Simple, Fast, Accurate Intent Classification and Slot Labeling

本文《Simple, Fast, Accurate Intent Classification and Slot Labeling》一种联合的框架来同时解决意图识别和槽位标记的任务，文中提出的框架在模型的准确性、模型训练的速度和推理的速度三个方面取得了平衡。论文地址:https://arxiv.org/pdf/1903.08268.pdf 概述意图识别/意图分类(Intent Clas...

2019-07-24 10:11:29 406

原创 NAACL 2019 | 利用图变换网络实现从知识图到文本的生成

文章《Text Generation from Knowledge Graphs with Graph Transformers Normalization》提出一种基于知识图和图变换网络的方法，实现了文献摘要的自动生成。利用知识图结构，描述想要表达的多句文本的结构信息。通过对文章标题以及知识图的编解码，自动生成与文章标题语义相符的文章摘要部分。论文地址:https://arxiv.or...

2019-07-22 16:31:28 1136 2

原创 IJCAI 2019 | 通过交互提升机器翻译质量

自从神经网络模型在机器翻译任务(Machine Transoformer，MT)得到了应用，该任务得到了飞速的发展，机器翻译的质量也在不断地提高。尽管如此，机器翻译的质量也难以与人类译者相提并论。但是，有不少工作证明由人工介入机器翻译过程对机器翻译质量有明显的帮助。本文提出了一种新的交互式机器翻译模型(Interactive Machine Translation, IMT)来提升机器翻译质量，相...

2019-06-24 18:12:53 961

原创 ACL2019|Graph-based Dependency Parsing with Graph Neural Networks

句法分析是自然语言处理领域的一个关键问题，依存句法分析作为句法分析中的一个文法体系，近年来，成为研究热点，并且逐渐广泛应用于其他自然语言处理任务中。文章研究了将高阶特征有效的结合到基于神经图网络(GNN)的依存句法分析。本文并没有显式地从中间解析树中提取高阶特征，而是开发了一种更强大的依存树节点表示，它可以简洁高效地捕获高阶信息，并使用GNN来学习依存树节点表示，并讨论了GNN更新和聚合函数的几种...

2019-06-22 16:02:23 999

原创 ACL2019|Joint Type Inference on Entities and Relations via Graph Convolutional Networks

为了解决实体关系联合抽取任务，本文提出了一种在实体关系二分图上运行的图卷积网络。通过引入二元关系分类任务，可以用更有效和可解释的方式利用实体关系二分图结构，为实体关系的联合抽取任务开发了一个新的范例。引言对于实体关系抽取来说，现在主流的方法有两种。第一种是管道式（Pipeline），即首先使用实体模型来抽取实体，之后用抽取出的实体作为输入，使用关系模型来抽取关系。这种方法忽视了两个模型之间...

2019-06-21 17:56:28 1857 1

原创 ACL 2019 | 神经网络答复生成的检索增强对抗训练

对话系统大多数是基于生成式或者检索式的方法构建的，现有的对话系统没有从不同模型的优势中获益。检索式的方法依赖人工对候选答复进行筛选、重排序，由于答复是人工编写的，其有可能与输入信息不匹配。生成式的方法可以依据输入信息自动生成答复，但它会遇到生成大众化答复的问题。很自然，我们希望能利用检索的答复来加强生成的答复。为了利用检索的答复信息加强生成的答复，本文提出了一种检索增强对抗训练的神经网络答复生成方...

2019-06-19 18:41:30 598

原创 SIGIR 2019 | 多基于深度无监督哈希的目标检测算法

与无监督哈希算法相比，监督哈希算法通过标签信息通畅能获取更好的模型性能。对于无标签的数据，如果我们能够挖掘其潜在的标签信息，并将其应用到模型训练过程中，可以明显提升无监督哈希算法的模型性能。本文提出一种利用预训练目标检测模型来挖掘标签信息的模型，其在2个数据集上的图像检索任务都超过了现有的最优模型。基于监督模型算法的良好表现，本文提出一种新的模型结构(ODDUH)，其核心在于使用预训练目标检测模型...

2019-06-18 18:00:33 2151 1

原创 SIGIR 2019 | 大纲生成：理解文档的内在内容结构

理想的大纲生成(Outline Generation, OG)模型能够很好地获取3个不同级别的一致性，即上下文段落之间的一致性、章节与章节标题的一致性、上下文标题之间的一致性。本文提出了一种新颖的层次结构神经网络生成模型(HiStGen)，其先预测章节序列边界，然后相应地生成章节标题序列。论文地址:https://arxiv.org/abs/1905.10039引言为了解决OG任务中3...

2019-06-17 18:58:41 527

原创 IJCAI 2019 | How Well Do Machines Perform on IQ tests: a Comparison Study on a Large-Scale Dataset

自动IQ测试提供了一个可以整合字符和子字符两种方法的、理想的测试平台。因此，尽管不是十分适合用于测试机器的智能，它也为当前AI研究提供了一个优秀的评测基准。而且，现在的大多数的IQ测试数据也没有满足评测机器的目标。为了解决这些问题，作者构建了一个具有10K条数据的大型IQ测试问题集。引言随着AI研究的快速发展，AI测试基准越来越变成一个十分重要的任务，例如ImageNet和RoboCup等...

2019-06-14 18:25:11 439

原创 SIGIR 2019 | Document Gated Reader for Open Domain Question Answering

基于深度学习的模型，目前也存在一些问题，例如质量不太好的远距离监督数据和答案的分数没有在多文档间归一化。更有甚者，他们单独处理每个文档，而忽略了上下文之间的信息。这个处理方法与之前的开放域问答系统不相同。在该论文中，作者提出了一个DGR（document gated reader），这个模型使用了若干个文档去生成正确的答案。作者提出的文档级别的门操作去决定问题和文档之间相关性，并且把他们嵌入到答案...

2019-06-13 18:05:09 608

原创 SIGIR 2019 | Teach Machine How to Read : Reading Behavior Inspired Relevance Estimation

在本论文中，作者先总结了受实际用户行为模式而来的阅读启发法（reading heuristic），这些启发可以被分为显式和隐式。通过重新审视现有的检索的模型及其变形，论文作者发现，它们仅满足了一部分的阅读启发法。通过消融学习，作者指出每个阅读启发对检索性能都有积极的影响。同时整合了全部有效的阅读启发法进去了检索模型，并将它命名为Reading Inspired Model(RIM)。实验结果表明R...

2019-06-12 19:24:58 535

原创 SIGIR 2019 | Human Behavior Inspired Machines Reading Comprehension

深度神经网络模型在一些简化过的机器阅读理解任务（例如: SQuAD）已经达到甚至超过了人的水平。然而，在实际的应用场景或者接近实际的任务（例如：MS MARCO和DuReader）中，和人的表现还有一大段的距离。本论文通过追踪32个试验者在完成60项阅读理解任务时，眼睛表现出来的行为模式和答案所在的位置来提出了一个两阶段阅读行为模型。第一个阶段为搜集可能的候选答案，第二个阶段为通过对比和验证生成最...

2019-06-11 19:30:01 509

原创 ACL 2018 | 基于深度注意力匹配的检索式多轮对话模型

多轮对话系统中的问答匹配，以往的研究中大多关注表面文本相关性，对潜在依赖关注较少，本论文受Transformer启发，提出一种基于多粒度注意力的多轮对话问答匹配模型。论文地址:https://www.aclweb.org/anthology/P18-1103引言本文受机器翻译任务中Transformer模型的启发，提出一种完全基于注意力机制的多轮对话问答匹配模型，即DAM（Deep A...

2019-06-10 17:40:42 1693

原创 SIGIR 2019 |基于BERT的历史答案编码实现多轮会话问答

会话搜索是信息检索社区中的一个新兴话题。多轮对话搜索的主要挑战之一是对对话历史进行建模以回答当前问题。现有方法或者将历史问题和答案放置在当前问题之前或使用复杂的注意机制来模拟历史。论文地址:https://arxiv.org/abs/1905.05412代码地址:https://arxiv.org/abs/1905.05412https://github.com/prdwb/bert_...

2019-06-09 18:54:58 2042

原创 ACL 2019 | 引入知识图谱增强语言表示

自从神经网络模型在自然语言处理任务(Neural Language Process，NLP)中得到不断的应用，该任务得到了飞速的发展。近几年，由于在多项NLP任务上取得了巨大的进步，预训练语言模型开始得到广泛的关注。比如ELMo、GPT以及BERT。本文通过将预训练语言模型和知识图谱信息相结合，充分利用语义语法和背景知识等特征，相比于普通的预训练语言模型，在多个知识驱动的NLP任务上得到了巨大的提...

2019-06-08 18:40:01 1064

原创 ACL 2019 | 机器翻译深层模型

随着Transformer(Vaswani et al, 2017)及其变种(Shaw et al., 2018; Wu et al., 2019)的提出，宽而浅的模型结构在神经机器翻译模型受到偏好，如Transformer big模型使用了6层的编码器和解码器结构以及1024维的隐含层维度信息。但是，深层神经网络模型在基于RNN的GNMT模型以及BERT上得到了有效性验证，那么这种深层结构对于T...

2019-06-07 18:07:08 1792 1

原创 ACL2019|Named Entity Recognition using Positive-Unlabeled Learning

命名实体识别（NER）是许多自然语言处理任务的基本组成部分。该领域中现有的监督方法通常需要大量标记数据。在这项工作中，作者探索了仅使用未标记数据和命名实体字典来执行NER的方法。作者将任务表示为正未标记（PU, Positive-Unlabeled）学习问题，并由此提出一种PU学习算法来执行该任务。该方法的一个关键特征是它不需要字典标记句子中的每个实体，甚至不要求字典标记构成实体的所有单词，这大大...

2019-06-06 19:13:27 2031 1

原创 ACL2019|Dynamically Fused Graph Network for Multi-hop Reasoning

文本问答（TBQA）近年来得到了广泛的研究。大多数现有的方法主要是在一个段落内找到问题的答案。然而许多困难的问题需要在两个或多个文档之中寻找答案。本文提出了动态融合图形网络（DFGN）这种新的回答方法，为需要多个分散证据来进行推理的文本问答提供了新的思路。在人类的逐步推理行为的启发下，DFGN包含了一个动态融合层，该层从给定查询中提到的实体开始，沿着文本动态构建的实体图进行探索，并从给定的文档中逐...

2019-06-05 18:34:06 1556

原创循环独立LSTMs

本文受到IndRNN的启发，在此基础上提出了一种更加通用的新的LSTM：IndyLSTMs。与传统LSTM相比循环权重不再是全矩阵而是对角矩阵；在IndyLSTM的每一层中，参数数量与节点个数呈现线性关系而传统的LSTM则为二次，此特性使模型更小更快。与传统的LSTM相比，尽管IndyLSTMs的尺寸较小，但在每个参数的精确度和总体精度方面，它始终优于常规LSTMs。作者将这种性能的改进归功于In...

2019-06-04 18:58:13 793

翻译 MASS: Masked Sequence to Sequence Pre-training for Language Generation

微软亚洲研究院的研究员在ICML 2019上提出了一个全新的通用预训练方法MASS, 在序列到序列的自然语言生成任务中全面超越BERT和GPT。论文地址:https://arxiv.org/pdf/1905.02450.pdf引言BERT在自然语言理解（比如情感分类、自然语言推理、命名实体识别、SQuAD阅读理解等）任务中取得了很好的结果，受到了越来越多的关注。然而，在自然语言处理领域...

2019-06-03 18:36:25 1997 1

原创 ICASSP 2019 | WaveGlow：用于语音合成的基于流的生成式网络

过去的语音波形生成模型，很多是自回归式的模型，生成速度慢。而非自回归一些模型如Parallel WaveNet和Clarinet，则需要两个网络：一个学生网络和一个老师网络。本文提出的WaveGlow不需要自回归的过程，只由一个网络构成，用一个损失函数进行训练，简单有效。论文地址:https://ieeexplore.ieee.org/document/8683143代码地址:http...

2019-06-02 18:32:53 3928

原创 ICLR2019 | 神经网络语言模型的自适应输入表示

但是对于具有大量词汇的语言模型来说，神经网络方法在预测单词概率时，必须要计算每一个词的概率，这极大地消耗了计算的资源与时间。因此有许多工作都致力于缓解此类问题，比如层次化softmax、自适应softmax等。论文地址:https://openreview.net/pdf?id=ByxZX20qFQ代码地址:https://github.com/pytorch/fairseq引言本...

2019-06-02 18:32:40 489

原创 CVPR2019 oral | ScratchDet ,从头开始训练单步目标检测器

本文《ScratchDet: Training Single-Shot Object Detectors from Scratch》提出了一种从零开始训练的单步目标检测器ScratchDet，并基于root-block设计了新的基础网络Root-ResNet。ScratchDet的性能在现有从头开始训练的目标检测模型中达到最佳，且优于部分基于预训练基础网络的检测模型。论文地址:https...

2019-05-31 18:31:46 717

原创 Searching for MobileNetV3

研究人员利用神经架构搜索的方法得到了MobileNetV3网络。MobileNetV3包含两个版本MobileNetV3-Small与MobileNetV3-Large，别对应性能和存储量不同的场景。该网络相较于MobileNet前两个版本无论在计算延迟性上还是在计算精度上，都有较为明显的优势。论文地址:https://arxiv.org/abs/1905.02244MobileNetV...

2019-05-30 20:08:39 925

原创 CVPR2019|卷积核动态选择网络

本文利用多分支不同卷积核融合的网络结构来实现动态选择卷积核，目的是为了模拟实际生物神经元根据不同的刺激可动态调节其自身的感受域，设计思路结合了attention和inception两种机制来实现不同卷积核的选择和融合。本文设计实现的Selective Kernel主要对目前卷积网络，如ResNet、Inception、ShuffleNet等结构中卷积核尺寸大于1的卷积核进行替换，充分利用了grou...

2019-05-13 18:33:46 1909

原创 NAACL 2019 | 通过语料增广进行语法纠错

端到端序列模型(sequence-to-sequence framework)在最近几年的语法纠错(Grammatical Error Correction，GEC)任务上得到了普遍应用。然而，不像其他序列生成任务，如机器翻译(MT)，GEC受限于不够充分的平行语料不能很好的产生效果。本文提出了两种通过增广平行语料的方式来提升GEC模型的效果，在测试集上达到了新的state-of-the-art。...

2019-05-13 18:33:31 795

原创 ICLR 2018 | 深度梯度压缩:减少分布式训练的通信带宽

大型的分布式训练需要较好的通信带宽以便进行梯度的交换，这限制了多节点训练的可扩展性同时也需要昂贵的高带宽设备。这种情况在移动端进行分布式训练时会变得更加糟糕。这篇文章发现分布式SGD中有99.9%的梯度交换都是冗余的，并提出了深度梯度压缩（DGC）用来减少通信带宽。为了保证压缩过程中的精度，DGC使用了4中方法：动量修正、本地梯度剪裁、动量因子遮蔽和warm-up训练。文章中将DGC使用在了图像分...

2019-05-11 18:31:57 2951 1

原创 ICCV 2017 | 语言卷积神经网络应用于图文生成的经验学习

本文基于语言卷积神经网络，融合之前时刻的所有单词，从而保存了更详尽的历史信息，使得结果更加准确。不同于常规语言模型例如LSTM通过逐个单词递推的方式来生成caption，本模型对历史单词进行建模，解决了长文本层次结构和依存性建模的问题，取得了当时的state-of-the-art。论文地址:https://arxiv.org/abs/1612.07086引言传统的encoder-dec...

2019-05-10 18:32:27 213

原创 2019 | 多任务深层神经网络在自然语言理解中的应用

多任务学习( MTL )的灵感来自于人的学习活动，在这种活动中，人们经常应用从以前的任务中学到的知识来帮助学习新的任务。本文提出了一种多任务深度神经网络(MT-DNN)，用于跨多种自然语言理解任务的学习表示。MT-DNN不仅利用大量跨任务数据，而且受益于正则化效果，这种效果可以生成更为一般的表示，有助于适应新的任务和领域。论文地址:https://arxiv.org/abs/1901.11...

2019-05-09 18:17:29 523

原创 AAAI 2017 | 基于语句级注意力与实体描述的远程监督关系抽取

远程监督可将关系抽取扩展至包含大量关系的超大规模数据上。然而，已有方法在选择有效实例方面存在缺陷，而且缺少实体的背景知识。本文提出一种语句级的注意力模型用于选择有效实例，该模型在选择实例时充分利用来自知识库的监督信息。同时本文从Freebase和Wikipedia页面抽取实体的描述信息以补充背景知识。背景知识不仅为预测关系提供了更多信息，而且为注意力模块提供了更好的实体描述。三个实验的结果表明本文...

2019-05-08 18:32:10 750

原创 SLT 2018 | 使用SincNet从原始语音波形识别说话人

说话人识别是从语音信号识别出说话者的任务，分为说话人辨认（speaker identification）和说话人确认（speaker verification）两类。文章提出了一种新颖的卷积结构SincNet，直接从波形提取特征，作为说话人识别任务的输入。实验表明，SincNet在说话人辨认和说话人确认任务上都有性能提升。论文地址:https://arxiv.org/abs/1808.00...

2019-05-07 18:35:13 1182

空空如也

空空如也