ACL 2017 录用论文整理（长文）-CSDN博客

本文精选了AI领域的前沿论文，涵盖了自然语言处理、机器学习、机器翻译等多个方向。深入探讨了神经网络在文本摘要、问答系统、情感分析等方面的应用，以及在语音识别、视觉理解和多模态学习上的最新进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://chairs-blog.acl2017.org/2017/04/05/accepted-papers-and-demonstrations/

论文集现在还不能直接下载到（好像在这里是能下载的），本文将会陆续搜集录用论文的下载地址。同时部分文章会精读、写一些笔记。下面的短评都是纯粹基于abstract部分加上笔者的脑补形成的。很多领域我完全不了解，所以不保证短评内容没问题。

接收长文

from： http://ju.outofmemory.cn/entry/326011

Biomedical 生物信息学

Enriching Complex Networks with Word Embeddings for Detecting Mild Cognitive Impairment from Speech Transcripts [ Leandro Santos, Edilson Anselmo Corrêa Júnior, Osvaldo Oliveira Jr, Diego Amancio, Letícia Mansur and Sandra Aluísio ]
有一种叫做Mild Cognitive Impairment（轻度认知障碍）的病。传统方法分析Speech Transcript来进行诊断。但这些方法很难规模化。文章使用一种称为“Complex Network”的模型将transcripts建模，并且使用word embedding去enrich这个模型，然后使用一些常见的二分类模型来从transcript中判断是否有这种病。

Cognitive Modelling and Psycholinguistics 认知模型和语言心理学

Alignment at Work: Using Language to Distinguish the Internalization and Self-Regulation Components of Cultural Fit in Organizations[ Gabriel Doyle, Amir Goldberg, Sameer Srivastava and Michael Frank ]
作者提出了一种基于计算语言学的方法来计算文化适应性（Cultural fit）。
Representations of language in a model of visually grounded speech signal [ Grzegorz Chrupała, Lieke Gelderloos and Afra Alishahi]
论文提出了一个语音感知的视觉模型，它能口语语音和图像映射到一个联合语义空间。作者使用了一个Multi-layer Recurrent Highway Network去对口语语音的时域信息建模，并且最终能够从输入信号中抽取得到形态和语义的语言学信息（both form and meaning-based linguistic knowledge）。
Spectral Analysis of Information Density in Dialogue Predicts Collaborative Task Performance [ Yang Xu and David Reitter ]
作者研究了对话对象（conversation partner）在一段成功交流中的相关信息贡献（relative information contributions）。作者提出了两个从频域提取的特征，并且能够用来预测交流是否“成功”。即信息是否能够有效并可靠地在对话中被传递。

Dialog Interactive Systems 对话交互系统

Adversarial Adaptation of Synthetic or Stale Data [ Young-Bum Kim, Karl Stratos and Dongchan Kim ]
有一种称为data shift的现象，它主要来自于两个方面：1.从合成的数据到真实用户数据之间的迁移。2.从过时的旧数据到当前的新数据之间的迁移。这两个方面都会导致训练和评估（evaluation）之间产生不匹配的情况。文章使用了几个最新的神经网络模型（如GAN和domain separation network）等方法，提出了一个全新的对抗训练框架。在有监督和无监督的情况下，这个方法都超过了一些很强的baseline。
Affect-LM: A Neural Language Model for Customizable Affective Text Generation [ Sayan Ghosh, Mathieu Chollet, Eugene Laksana, Stefan Scherer and Louis-Philippe Morency ]
人类语言中经常通过一些带有情感色彩的词汇传达出说话者的感情。之前有很多关于情感的研究，但是将神经语言模型和情感信息结合在一起还未有人研究。在这篇文章中，作者扩展了LSTM，提出以affect categories作为条件的语言模型，并且能够生成带有情感信息的文本。所提出的Affect-LM能够通过额外设计的参数来调整输出文本的情感强度。Affect-LM也能学习到affect-discriminative的词表达，并且最后关于困惑度（perplexity）的一些实验证实：添加了这些额外的感情信息能够提高语言模型预测的准确性。
Chat Detection in an Intelligent Assistant: Combining Task-oriented and Non-task-oriented Spoken Dialogue Systems [ Satoshi Akasaki and Nobuhiro Kaji ]
对话系统主要有两种，一种是像siri那样在特定领域下面向task的，另一种是在开放领域下面向非task的（如小冰）。这篇文章能够判断用户是否在跟系统进行“chat”（闲聊）。并且构建了一个包含了15,160个对话的数据集。这些数据集从真实的商业智能助理的数据日志中收集得到（在后面将会放出）。实验部分使用了Twitter和搜索query作为例子，来测试开放领域的用户chat detection。
Domain Attention with an Ensemble of Experts [ Young-Bum Kim, Karl Stratos and Dongchan Kim ]
这篇文章主要进行Domain Adaptation的工作。在domain adaptation中一个重要的问题就是通过K个已经存在的domain进行有限的supervise，然后去快速产生一个新的domain。文章中提出的方法是集成多个domain experts。假设已经有K个在各自领域训练过的模型，当给领域K+1时，现有的模型能够将K个领域专家的反馈加权平均然后产生一个新的domain。实验中这个模型significantly超过baseline。
Generating Contrastive Referring Expressions [ Martin Villalba, Christoph Teichmann and Alexander Koller ]
这篇文章研究的是指称表达(referring expressions, REs)。一个文本生成系统所产生的REs即便符合语义规则，也是可能会被读者（hearer）误解的。这篇文章提出了一个算法，能够侦测到hearer潜在的指代理解错误，并且通过对这个潜在错误添加额外的描述信息来让读者不容易听错。
Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning [ Jason D Williams, Kavosh Asadi and Geoffrey Zweig ]
现在使用RNN进行端到端的对话系统的训练比较火，而这些方法大多需要使用大量的数据进行训练。这篇文章介绍了一个叫做混合编码网络（Hybrid Code Networks, HCNs）的模型，能够将领域知识编码后与RNN相结合。与其他已有的端到端对话模型相比，这个方法大量减少所需的训练数据，并且具备latent representation所带来的好处。HCNs能够使用有监督学习、增强学习或者两者并用的方法进行训练。HCNs在bAbI数据及上得到了state-of-the-art的性能。
Joint Modeling of Content and Discourse Relations in Dialogues [ Kechen Qin, Lu Wang, Joseph Kim and Julie Shah ]
这篇文章提出了一个联合建模的方法来识别讨论中的salient discussion points。同时也会去标注演讲者们相互讨论之间的discourse relations(篇章级句间关系)。这篇文章将discourse relations当做隐变量来处理。实验部分证实作者在两个流行的meeting语料上，这个联合模型在phrase-based content selection和discourse relation prediction的任务上都达到了state-of-art.
Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders [ Tiancheng Zhao, Ran Zhao and Maxine Eskenazi ]
这篇文章提出了一个基于Conditional Variational Autoencoders的框架，能够在encoder中捕捉到篇章级的diversity。
Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings [ He He, Anusha Balakrishnan, Mihail Eric and Percy Liang ]
这篇文章中使用了两个包含各自知识(private knowledge)的agent相互协作组成的对话系统。这两个agent必须相互去协作来达到一个共同的目标。作者收集了11k个human to human的对话语料，然后去对有结构的knowledge和无结构的语言同时进行建模。作者提出了一个动态知识图嵌入(dynamic knowledge graph embeddings)神经模型。实验证明这个方法要比其他神经模型或者rule-based的baseline更像人。
[Neural Belief Tracker: Data-Driven Dialogue State Tracking] ( https://arxiv.org/abs/1606.03777 ) [ Nikola Mrkšić, Diarmuid Ó Séaghdha, Tsung-Hsien Wen, Blaise Thomson and Steve Young ]
在对话系统中有一个task叫做Dialogue State Tracking(DST)，它是指在用户对话的每一个step推测用户的目的(estimates the user's goal at every step of the dialogue)。这篇文章提出了一个叫做Neural Belief Tracking(NBT)的框架来做这件事，这个框架能克服传统方法遇到的一些问题，将一些信息编码到distributed representation中。最后在两个数据及上测试达到state-of-the-art的效果。
Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-based Chatbots [ Yu Wu, Wei Wu, Chen Xing, Ming Zhou and Zhoujun Li ]
这篇文章研究的是基于检索(retrieval-based)的chatbot在多轮对话(multi-turn conversation)中如何响应的问题。已有的方法无论是将context与utterances拼接，还是将response与一个高度抽象的上下文向量去匹配，都有可能会丢失上下文信息。这篇文章提出了一个叫做sequential matching network(SMN)的模型去解决传统模型的这些问题。最后的实验在两个公开的dataset上证实了SMN能significantly超过state-of-the-art方法。
Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses [ Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas Angelard-Gontier, Yoshua Bengio and Joelle Pineau ]
（这篇文章竟然是放在ICLR2017 Workshop的OpenReview页面上的？？）评价对话系统的响应质量一直是一个比较难的问题，这篇文章将对话系统的自动评测设计成了一个学习问题。文章提出了一个评估模型（ADEM），这个模型通过学习一个人类评分的数据集，能够预测给定输入的human-like的评分。实验证实ADEM模型预测的相关性非常好，在一定程度上要比传统的如基于词重叠(word-overlap metrics)方法（如BLEU等）要好。
Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access [ Bhuwan Dhingra, Lihong Li, Xiujun Li, Jianfeng Gao, Yun-Nung Chen, Faisal Ahmed and Li Deng ]
这篇文章提出了一个叫做 KB-InfoBot 的对轮对话agent，它能够帮助用户在不编写复杂的query语句的情况下搜索Knowledge Base。这些面向目标(goal-oriented)的对话系统agent一般都需要与外部的数据进行交互来访问真实世界中的knowledge。之前的系统通过一个符号化的query去通过attributes来检索KB，但是这种符号化的操作会破坏端到端训练的函数的可微性。在这篇文章中作者通过将一个表示用户是否对这个entity感兴趣的“soft”的分布替换掉符号化的query。最后文章展示了一个完全端到端的neural agent，可以完全依赖用户的反馈进行训练。

Discourse Pragmatics 语篇语用学

A Neural Local Coherence Model [ Shafiq Joty and Dat Tien Nguyen ]
这篇文章提出了一个基于CNN的局部一致性模型(local coherence model)。这个模型使用distributed representation捕捉到了比较long range的entity transition。（不了解这个领域，个人感觉他们就是在解：判断长期对话中论述的多个entity是不是同一个entity的问题）。他们的方法在三个不同的coherence assessment任务上都实现了state-of-the-art的结果。
Adversarial Connective-exploiting Networks for Implicit Discourse Relation Classification [ Lianhui Qin, Zhisong Zhang, Hai Zhao, Eric Xing and Zhiting Hu ]
由于缺乏连接性信息(connectives)，隐对话关系分类（implicit discourse relation classification）变得非常具有挑战。所以很多人在使用标注的implicit connectives来帮助这个task。文章作者提出了一个feature imitation的框架，在这个框架之中implicit的关系网络(relation network)被用来从另一个神经网络中学习连接性。如此将会学习到能让分类更精确的重要的相似特征。作者使用一个对抗网络模型来对抗训练一个implicit网络和一个关于特征的discriminator。这个方法能够很好地将连接性的判别能力迁移到implicit特征上，并且在PDTB benchmark上达到了state-of-the-art的性能。（此处connectives有可能是“连接词”的意思？）
Argument Mining with Structured SVMs and RNNs [ Vlad Niculae, Claire Cardie and Joonsuk Park ]
这篇文章提出了一个新的factor图模型（factor graph model）来进行观点挖掘（argument mining）。这个模型不要求一个文档中的观点关系是树状结构（这在web comments dataset中有20%）。这个方法能超过web comment和argumentative essay这两个无结构数据的baseline。
Discourse Mode Identification in Essays [ Wei Song ]
对话模式在自动写作和评估上非常重要。这篇文章研究了手动和自动的方法来识别记叙文句子中的记叙(narration)、阐述(exposition)、描述(description)、争论(argument)和情感表达(emotion expressing)。作者标注了一个用来学习对话模式特性的语料，然后用一个神经序列标注模型来描述。实验结果表示对话模式识别的平均F1分数为0.7。除此之外还证明了对话模式能够被用来作为提升自动文章打分(automatic essay scoring)的特征。
Don’t understand a measure? Learn it: Structured Prediction for Coreference Resolution optimizing its measures [ Iryna Haponchyk and Alessandro Moschitti ]
结构化预测相关，进行共指消解。
Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution [ Ting Liu, Yiming Cui, Qingyu Yin, Wei-Nan Zhang, Shijin Wang and Guoping Hu ]
零代词消解(zero pronoun resolution)相关。传统的方法依赖于大量的标注数据。这篇文章提出了一种方法能够产生大量的伪数据来进行训练。并且提出了一种类似cloze的方法来弥补伪数据和真实数据之间的鸿沟
Joint Learning for Event Coreference Resolution [ Jing Lu and Vincent Ng ]
这篇文章提出了一种基于联合训练的模型来进行事件共指消解（Event Coreference Resolution）。这篇文章是第一次尝试训练一个mention-ranking模型，并且将event anaphoricity(事件对应)用在事件共指的问题上。自后在KBP2016的英文和中文数据集上取得了最好的结果。
Neural Discourse Structure for Text Categorization [ Yangfeng Ji and Noah A. Smith ]
这篇文章介绍了对话结构（discourse structure）对文本分类的好处。文章使用了RNN模型和Attention机制来计算文本主要内容对应的representation。实验介绍了几种变体，并展示了其优劣。

Generation Summarization 摘要生成

Abstractive Document Summarization with a Graph-Based Attentional Neural Model [ Jiwei Tan and Xiaojun Wan ]
这篇文章review了使用神经网络做文本摘要的困难，并提出了一个基于图、sequence to sequenc和attention机制的新方法。实验证明这个方法能够比state of the art的基于抽取的方法要好。
[Automatically Generating Rhythmic Verse with Neural Networks](Automatically Generating Rhythmic Verse with Neural Networks) [Jack Hopkins and Douwe Kiela ]
这篇文章提出了两个产生不同类型韵律诗的新方法。第一个方法使用了用语音编码的神经语言模型，学习到同时包含了form和content的英文诗歌的一个implicit representation。第二个方法将诗歌生成问题看作是约束满足问题(Constraint Satisfaction Problem, CSP)。即用来生成的神经语言模型的任务是学习到内容（content）的表达，而用来判别的带权有限状态机(weighted finite state machine)用来限制它的形式（form）。通过操作对后面模型的限制，最后能够产生紧扣主题的诗歌。在一个大规模的人工评测中，机器生成的诗歌有54%会被参与者认为是人写的。除此之外，参与者认为最human-like的诗歌实际上是机器生成的。
[Can Syntax Help? Improving an LSTM-based Sentence Compression Model for New Domains](Can Syntax Help? Improving an LSTM-based Sentence Compression Model for New Domains) [ Liangguo Wang, Jing Jiang, Hai Leong Chieu, Hui Ong Ong, Dandan Song and Lejian Liao ]
这篇文章研究了如何提高一个deletion-based LSTM神经网络在sentence compression任务上的领域适应性(domain adaptability)。
Creating Training Corpora for NLG Micro-Planners [ Claire Gardent, Anastasia Shimorina, Shashi Narayan and Laura Perez-Beltrachini ]
这篇文章提出了一个新的框架，它能够半自动地从已有的Knowledge Base中产生用于microplanning的语料。（不太了解Micro Planning是什么）
Data-Driven Broad-Coverage Grammars for Opinionated Natural Language Generation (ONLG) [ Tomer Cagan, Stefan L. Frank and Reut Tsarfaty ]
这篇文章介绍了一个新的NLG task：opinionated natural language generation。这个task的目的是产生human-like、主观的、带有意见倾向的文章。这篇文章提出了一个数据驱动的架构来进行这个ONLG任务。
[Diversity driven attention model for query-based abstractive summarization](Diversity driven attention model for query-based abstractive summarization) [ Preksha Nema, Mitesh M. Khapra, Balaraman Ravindran and Anirban Laha ]
这篇文章提出了一个模型来进行query-based的文本摘要任务。它修改了“encode-attend-decode”这个流程，为其添加了额外的两个部分。最终实验表明这个新增的两个部分让性能超过vanilla encode-attend-decode模型。并且在ROUGE-L得分获得了28%的绝对提高。
Flexible and Creative Chinese Poetry Generation Using Neural Memory [ Jiyuan Zhang, Yang Feng, Dong Wang, Yang Wang, Andrew Abel, Shiyue Zhang and Andi Zhang ]
这篇文章提出了一个叫做memory-augmented neural model来进行中文诗歌生成的任务。
Get To The Point: Summarization with Pointer-Generator Networks [ Abigail See, Peter J. Liu and Christopher D. Manning ]
这篇文章针对文本摘要提出了一个新的框架，它增强了标准的sequence-to-sequence attentional model，并且将他们的model应用在CNN/Daily Mail的摘要task上，比现在的state-of-the-art提高了至少2 ROUGE points.
Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback [ Avinesh PVS and Christian M. Meyer ]
这篇文章提出了一个抽取式的多文档摘要(Multi-document summarization, MDS)系统。它使用欧冠joint optimization和active learning的方法来进行用户反馈的context selection。这篇文章交互式地获取用户反馈然后逐渐提升现在state-of-the-art的方法：integer linear programming(ILP)框架。
Learning to Ask: Neural Question Generation for Reading Comprehension [ Xinya Du, Junru Shao and Claire Cardie ]
这篇文章研究的是阅读理解过程中从文本段落中自动生成提问。这篇文章介绍了一个attention-based sequence学习模型。自动评测结果显示这个系统significantly超过了state-of-the-art的rule-based的系统。在人类评测中，这个系统生成的问题也更加自然（从语法、流利程度上来说），并且也更难回答。
Learning to Generate Market Comments from Stock Prices [ Soichiro Murakami, Akihiko Watanabe, Akira Miyazawa, Keiichi Goshima, Toshihiko Yanase, Hiroya Takamura and Yusuke Miyao ]
这篇文章提出了一个新的框架来根据股票价格自动生成评论。
Neural AMR: Sequence-to-Sequence Models for Parsing and Generation
这篇文章与Abstract Meaning Representation (AMR) 相关。文章提出了一个新的训练方法，能够利用上数以百万的无标注的句子和经过仔细预处理的AMR graphs。
PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents [ Corina Florescu and Cornelia Caragea ]
这篇文章提出了一个叫做PositionRank的无监督模型来从学术文档中抽取关键短语(keyphrase)
Program Induction for Rationale Generation: Learning to Solve and Explain Algebraic Word Problems [ Wang Ling, Dani Yogatama, Chris Dyer and Phil Blunsom ]
这篇文章关注解代数问题。
Selective Encoding for Abstractive Sentence Summarization [ Qingyu Zhou, Nan Yang, Furu Wei and Ming Zhou ]
这篇文章提出了一个selective encoding model来扩展sequence-to-sequence方法来进行句子的摘要生成。
Supervised Learning of Automatic Pyramid for Optimization-Based Multi-Document Summarization [ Maxime Peyrard and Judith Eckle-Kohler ]
这篇文章提出了一个新的有监督的框架来估计automatic Pyramid score，然后使用它去做基于优化的多文档摘要抽取。

IE QA Text Mining Applications 信息抽取、问答系统、文本挖掘的应用

A Constituent-Centric Neural Architecture for Reading Comprehension [ Pengtao Xie and Eric Xing ]
这篇文章研究阅读理解（reading comprehension）。这篇文章在Stanford Question Answering Dataset (SQuAD)数据集上做RC任务。
[A FOFE-based Local Detection Approach for Named Entity Recognition and Mention Detection](A FOFE-based Local Detection Approach for Named Entity Recognition and Mention Detection) [ Mingbin Xu, Hui Jiang and Sedtawut Watcharawittayakul ]
这篇文章研究的是命名实体识别(named entity recognition, NER)和mention detection.
Adversarial Multi-task Learning for Text Classification [ Pengfei Liu, Xipeng Qiu and Xuanjing Huang ]
这篇文章研究的是在多任务学习中学习到shared layer，并且能够抽取出task-invariant的特征。这篇文章突出了一种对抗多任务学习框架(adversarial multi-task learning framework)来减轻shared和private的latent feature。作者在16个不同的text classification task上进行了实验证实了他们的方法的有效性。除此之外作者还展示了该方法模型学习到的shared knowledge能够容易迁移到新的任务上。作者公布了16个task的数据集。
An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge [ anchao Hao, Yuanzhe Zhang, Shizhu He, Kang Liu and Jun Zhao ]
这篇文章增强了基于神经网络的KBQA系统。文章认为之前的工作没有强调问题表达（question representation），并且问题无论它的候选答案是什么，都会被转换成为一个固定长度的vector。这种简单的表达方式难以表示出问题内部的信息。所以作者提出了一种端到端的神经网络模型通过cross-attention机制从问题候选答案的层面，动态地表达问题和他们的分数。在WebQuestions上的实验证明了提出的算法的有效性。
Attention-over-Attention Neural Networks for Reading Comprehension [ Yiming Cui, Zhipeng Chen, si wei, Shijin Wang, Ting Liu and Guoping Hu ]
这篇文章也是介绍阅读理解相关的问题。这篇文章提出了一个称谓attention-over-attention reader的模型进行Cloze-style的阅读理解。这篇文章的方法是在document-level attention增加一个额外的attention机制，并引如“attended attention”来完成最终的预测。实验证实这个方法在很多数据集上significantly超过之前的state-of-the-art的方法。
Automatically Labeled Data Generation for Large Scale Event Extraction [ Yubo Chen, Kang Liu and Jun Zhao ]
这篇文章关注对event extraction提供标注数据的方法。传统的hand-labeled的训练数据非常昂贵，并且event覆盖的非常有限。这使得一些supervised的方法很难去抽取大规模的event来进行KBP(knowledge base population)。为了解决数据标注的问题，作者提出了一个利用world knowledge和linguistic knowledge来自动标注event extraction所需要的数据的方法。这个方法能够探测到每一个event type的key argument和trigger word，然后用它们来从文本中标注event。实验结果显示大规模自动标注的数据与精心设计的人工标注的数据效果相当。所提出的自动标注的数据能够与人工标注的数据结合用来提高利用这些数据训练的模型的性能。
Coarse-to-Fine Question Answering for Long Documents [ Eunsol Choi, Daniel Hewlett, Illia Polosukhin, Alexandre Lacoste, Jakob Uszkoreit and Jonathan Berant ]
这篇文章提出了一个QA框架，它能高效地扩展到长文档(longer documents)的同时，能够维持甚至提升state-of-the-art模型的性能。
Comparing Apples to Apples: Learning Semantics of Common Entities Through a Novel Comprehension Task [ Omid Bakhshandeh and James Allen ]
这篇文章关注与理解common entities和他们的attributes。作者提出了一个新的机器阅读理解task，GuessTwo：给定一个短段落，与两个真实世界上在语义上相似的(semantically-similar)两个entities分别比较，系统应该能猜出来这两个entities是什么。想要完成这个任务，需要机器能够深刻理解文本内容。作者通过众包的方式产生了超过14K个不同类别（如水果和动物）的comparison paragraphs和comparing entities。作者同时还设计了两个evaluation的方法：open-ended和binary-choice的prediction。作者也提出了多个模型来处理这个任务，从语义驱动(semantic-driven)的方法到神经模型。语义驱动的方法超过了神经模型的性能，然而结果指出这个任务对每个model都非常的challenging。
Cross-lingual Distillation for Text Classification [ Ruochen Xu and Yiming Yang ]
这篇文章关注跨语言文本分类(Cross-lingual text classification, CLTC)。这篇文章提出了一个新方法来进行CLTC。这个方法使用soft probabilistic prediction将label-rich语言的文档作为有监督的label，然后能成功在新语言上在没有标注数据的情况下成功训练了一个分类器。同时坐车使用了一个名为adversarial feature adaptation的技术来减小模型训练中的distribution mismatch。最后作者在两个CLTC benchmark数据集上做了实验，以英语为源语言，以德语、法语、日语和汉语作为无标注的目标语言。所提出的方法优于其他的state-of-the-art。
Deep Keyphrase Generation [ Rui Meng, Daqing He, Sanqiang Zhao and Shuguang Han ]
这篇文章关注与关键词短语（keyphrase）。文章提出了一种成为Deep Keyphrase Generation的生成方法，它使用encoder-decoder框架来预测keypghrase。在6个数据集上的实验证实这个方法不但能在extracting keyphrase的任务上取得significant的性能提升，同时能够基于语义生成文本中没出现的keyphrases。代码和数据结构都公开。
Deep Pyramid Convolutional Neural Networks for Text Categorization [ Rie Johnson and Tong Zhang ]
这篇文章提出了一种低复杂度的词级CNN(low-complexity word-level deep convolutional neural network)来进行文本分分类。它能有效地表达文本中的长期关联(long-range association)。这个网络能够在增加网络深度的同时不会增加太多计算开销。作者称这个模型为深度金字塔CNN(deep pyramid CNN)。一个包含了15个带权层的这个模型在六个关于情感分类和topic分类的benchmark上都超过了以往方法。
Determining Gains Acquired from Word Embedding Quantitatively using Discrete Distribution Clustering [ Jianbo Ye, Yanran Li, Zhaohui Wu, James Z. Wang and Jia Li ]
Word embedding在文档分析中被广泛应用。很多词嵌入的方法被发明。但是这种方法与传统的bag-of-words的方法相比到底有多少净收益还未探究清楚。这篇文章提出了一个新的文档聚类算法，它将一个state-of-the-art的分类算法与所有word embedding相结合。通过计算两个分布之间的wasserstein距离，word-to-word的予以关系将会被考虑进去。新的聚类方法非常便于使用，并且能在很多数据集超过其他方法。更重要的是这个方法提供了框架来探求word embedding究竟对文档分析在何时有多少贡献。实验部分对比测试了多个embedding的模型。
Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms [ Shulin Liu, Kang Liu and Jun Zhao ]
这篇文章关注event detection。作者引入了identifying和categorizing event。作者认为arguments对这个任务提供了重要的线索，但是它们要么就是忽略掉了，要么就是在现在的detection方法中被用一种非常不直接的方法所用到。这篇文章提出了去利用argument信息来显式地进行event detection。实验结果显示这个方法在ACE 2005数据集上达到最佳的F1 score，并且超过state-of-the-art的方法。
Gated Self-Matching Networks for Reading Comprehension and Question Answering [ Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang and Ming Zhou ]
在这篇文章中，作者提出了gated self-matching networks来进行阅读理解风格的QA，即给定一段文本然后回答问题。作者在SQuAD数据集上做了实验，并且在single和ensemble模型上取得了第一的位置。
Gated-Attention Readers for Text Comprehension [ Bhuwan Dhingra, Hanxiao Liu, Zhilin Yang, William Cohen and Ruslan Salakhutdinov ]
这篇文章研究的是在document上回答cloze风格的问题。作者提出了一个称谓Gated-Attention Reader的模型，将multi-hop架构和一个新的attention机制结合。GA Reader在三个benchmarks上取得了state-of-the-art的结果。
Generating Natural Answer by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning [ Shizhu He, Kang Liu and Jun Zhao ]
这篇文章提出了一个端到端的问答系统COREQA，并能对knowledge inquired的问题产生正确的、coherent并且很自然的回答。
Going out on a limb : Joint Extraction of Entity Mentions and Relations without Dependency Trees [ Arzoo Katiyar and Claire Cardie ]
这篇文章提出了一个新基于attention的RNN来同时抽取entity mention和relation。作者展示了使用了attention机制的LSTM网络能够在不需要dependency trees的情况下抽取到entity mentions之间的语义关系。实验采用了Automatic Content Extraction (ACE)语料，结果显示作者的方法要超过基于特征的联合模型。最后经过分析，作者的模型在AGENT-ARTIFACT关系抽取性能更好，而SPTree在PHYSICAL和PART-WHOLE关系上要更好。
Improved Neural Relation Detection for Knowledge Base Question Answering [ Mo Yu, Wenpeng Yin, Kazi Saidul Hasan, Cicero dos Santos, Bing Xiang and Bowen Zhou ]
这篇文章提出了一个hierarchical RNN网络，通过residual learning提升性能。它能在给定一个输入问题时探测Knowledge Base中的relation。除此之外，作者提出了一个简单的KBQA系统，它集成了entity linking和前面提出的relation detector。实验表明他们的方法不但能在relation detection取得很好的效果，同时也能帮助KBQA系统在single-relation(SimpleQuestions)和multi-relation(WebQSP)这两个QA benchmark上取得state-of-the-art的准确性。
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
[ Suncong Zheng, Feng Wang and Hongyun Bao ]
这篇文章仍然在研究entities和relations的joint extraction的任务。作者首先提出了一个新的标注框架，它能将联合抽取任务转换成为一个标注问题(tagging problem)。然后基于这个标注框架，作者研究了不同的end-to-end模型来直接抽取entities和他们的relations。作者在公开数据集上进行了实验，结果表明基于tagging的方法要比大多数现在的pipelined和joint learning的方法都要好。并且，这篇文章提出的end-to-end的模型在公开数据集上得到了最好的结果。
Joint Extraction of Relations with Class Ties via Effective Deep Ranking [ Hai Ye, Wenhan Chao and Zhunchen Luo ]
这篇文章提出了一个叫做class ties的现象，即在关系抽取task中关系之间的联系。一个实体tuple可能有多个关系fact。在关系抽取任务重class ties会非常有用。然而传统的模型忽略或者未能有效利用这个属性。在这篇文章中，作者提出了一个利用继承了CNN的同意的模型来进行关系联合抽取（joint relation extraction）。文章中介绍了三个新的ranking loss function。并且展示了一种高效的算法来减轻模型训练时的类别不均衡（class imbalance）问题。实验表明使用class ties将会增强抽取性能，并且证明作者的方法能够学习到class ties。文章中的模型significantly超过了很多baseline，并且达到了state-of-the-art的性能。
Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix [ Bingfeng Luo, Yansong Feng, Zheng Wang, Zhanxing Zhu, Songfang Huang, Rui Yan and Dongyan Zhao ]
弱监督的方法能够在为很多分类任务构建训练数据时节省大量人力。但是这个方法经常会给生成的数据引入大量的噪声。这些噪声会对模型性能有很大的影响。在这篇文章中，作者仔细研究了在关系抽取任务中的弱监督。作者认为动态转移矩阵(dynamic transition matrix)能够有效地表示弱监督产生的数据中的噪声。这个矩阵能够通过一个新的学习算法，在不需要噪声提供监督信息的情况下学习到。实验表明这个方法能够提升extraction效果，并且在很多应用场景下都要超过state-of-the-art。
Leveraging Knowledge Bases in LSTMs for Improving Machine Reading [ Bishan Yang and Tom Mitchell ]
这篇文章关注与如何用到外部knowledge base来增加RNN处理机器阅读问题的性能。传统方法将KB中的知识编码成为离散的特征。这种方法性能并不好。作者提出了一个叫做KBLSTM的新的神经网络模型，它能用KB的连续表达来增强RNN学习机器阅读的效果。实验结果表明这个模型在ACE2005数据集的entity extraction和event extraction这两个任务上超过了之前的state-of-the-art的结果。
Neural End-to-End Learning for Computational Argumentation Mining [ Steffen Eger, Johannes Daxenberger and Iryna Gurevych ]
这篇文章研究了基于神经网络的进行论点挖掘(argumentation mining)的端到端的一些方法。
Neural Relation Extraction with Multi-lingual Attention [ Yankai Lin, Zhiyuan Liu and Maosong Sun ]
这篇文章也是研究relation extraction。作者使用了多语言（multi-lingual）的neural relation extraction框架。实验表明在真实数据集中，文中的模型能够得益于对语言文本而在关系抽取任务中超过baselines。
Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision [ Chen Liang, Jonathan Berant, Quoc Le, Kenneth D. Forbus and Ni Lao ]
这篇文章提出了神经符号机（Neural Symbolic Machines），首先，它包含了一个神经编程器（neural programmer），比如说一个端到端的模型来将语言映射到程序。其次它包括了一个符号计算机（symbolic computer），比如说一个能够执行程序的Lisp的解释器
。作者使用增强学习的方法通过瑞监督进行训练。实验表明NSM只需要QA pairs进行训练，不需要任何特征工程和领域知识，就可以在WebQuestionsSP数据集上超过state-of-the-art的方法。
Prerequisite Relation Learning for Concepts in MOOCs [ Liangming Pan, Chengjiang Li, Juanzi Li and Jie Tang ]
这篇文章介绍了MOOC中的先修课关系的自动挖掘。也就是自动发现学生在完成某一门课之前需要先完成之前其他的什么课程。作者提出了一个representation learning-based的方法来学习课程概念的lantent representation。然后研究了不同特征如何在concepts中间捕捉到先修课程的关系。在三个Coursera上的数据集上进行的实验表明这个方法比已有的方法有着significant的提升。
Reading Wikipedia to Answer Open-Domain Questions [ Danqi Chen, Adam Fisch, Jason Weston and Antoine Bordes ]
这篇文章研究的是从单一的数据源：Wikipedia上学习回答open-domain的factoid问题。这个机器阅读的任务综合了文档检索（寻找相关文档）和机器阅读理解（让机器从article找到答案）。作者的方法结合了利用bigram hashing进行搜索和使用RNN进行TF-IDF matching来从Wikipedia 上的段落寻找答案的方法。
Search-based Neural Structured Learning for Sequential Question Answering [ Mohit Iyyer, Wen-tau Yih and Ming-Wei Chang ]
这篇文章着眼于一个现实任务：回答一系列简单但是内部有联系的问题。作者手机了由6,066个问题序列组成(17,553 QA pairs)的数据集。作者提出了一个全新的dynamic neural semantic parsing框架使用弱监督的reward-guided search的方法。这个模型使用序列上下文信息击败了为回答高度复杂问题而设计的state-of-the-art的模型。
Tandem Anchoring: a Multiword Anchor Approach for Interactive Topic Modeling [ Jeffrey Lund, Connor Cook, Kevin Seppi and Jordan Boyd-Graber ]
交互式的主题模型是一个用来理解大量文本的一个有用的工具。然而大量已有的方法在处理大量数据时显得力不从心。Archor方法使用一个词来唯一地标识一个topic。但它缺乏一种利用先验知识的方法，也缺乏用户应用层面所需要的直观的语义信息。作者提出了一个叫做“Tandem Anchors”的组合方法。这个方法要比现存的交互方法都要快。
Time Expression Analysis and Recognition Using Syntactic Token Types and General Heuristic Rules [ Xiaoshi Zhong, Aixin Sun and Erik Cambria ]
这篇文章研究的是从问本中抽取时间信息。作者提出了一个叫做SynTime的方法来抽取时间表达式。实验证实这个方法在tweets数据集超过了state-of-the-art的方法。
Topical Coherence in LDA-based Models through Induced Segmentation [Hesam Amoualian, Wei Lu, Eric Gaussier, Massih R Amini, Georgios Balikas and Marianne Clausel]
这篇文章介绍了一种基于LDA的模型，它能够将文档按照特定的topic切分。
Towards a Seamless Integration of Word Senses into Downstream NLP Applications [ Mohammad Taher Pilehvar, Jose Camacho-Collados, Roberto Navigli and Nigel Collier ]
这篇文章将一个新的消歧义的算法整合到一个state-of-the-art的分类模型中，形成一个将sense-level信息整合到downstream NLP应用中的pipeline。
Transductive Non-linear Learning for Chinese Hypernym Prediction [ Chengyu Wang, Xiaofeng He and Aoying Zhou ]
这篇文章提出了一个推演式(transductive)的学习方法来建立从entities到上位词(hypernyms)之间的映射。这个方法结合了线性和非线性的嵌入映射模型。实验表明在真实数据中这个方法要在中文上位词预测任务中超过state-of-the-art。
Understanding and Predicting Empathic Behavior in Counseling Therapy [ Verónica Pérez-Rosas, Rada Mihalcea, Kenneth Resnicow, Satinder Singh and Lawrence An ]
这篇文章研究在心理咨询治疗中如何了解和预测移情行为（Empathic Behavior）。
Unsupervised Text Segmentation Based on Native Language Characteristics [ Shervin Malmasi, Mark Dras, Mark Johnson, Lan Du and Magdalena Wolska ]
这篇文章研究的是文本分段。文章指出，大部分文本分段方法都是判断话题的转移，但实际上也可能由于其他原因而分段，比如说作者身份和本地语言(native language)的变化。这篇文章对后者提出了一个机遇贝叶斯的无监督的文本分段方法。
Vancouver Welcomes You! Minimalist Location Metonymy Resolution [ Milan Gritta, Mohammad Taher Pilehvar, Nut Limsopatham and Nigel Collier ]
这篇文章研究转喻(metonymic)与命名实体识别之间的问题。文章提出了一个极简的神经网络的方法，结合一个新的预测窗口的方法在SemEval2007的Metonymy Resolution任务上取得了初中的结果。
Weakly Supervised Cross-Lingual Named Entity Recognition via Effective Annotation and Representation Projection [ Jian Ni, Georgiana Dinu and Radu Florian ]
现有的命名实体识别算法都是基于有监督的机器学习模型，这些模型需要大量手动标注的数据来保证其正确性。然而手工进行NER的标注是一件费时费力的工作，而且这个工作对一个新语种环境下更加困难。这篇文章提出了两个弱监督方法来进行跨语言NER。这个方法不需要人为地在目标语言中做标注。作者同时设计了两个co-decoding的框架，能够将两个projection-based的方法合二为一。实验证实这个combined system性能在CoNLL数据上超过其他三个弱监督方法。

Machine Learning 机器学习

An Algebra for Feature Extraction [ Vivek ]
这篇文章介绍了在基于统计的NLP的任务上的特征抽取的工作。这篇文章介绍了一种以代数的角度看待特征抽取的方法。
Bayesian Modeling of Lexical Resources for Low-Resource Settings [ Nicholas Andrews, Jason Eisner, Mark Dredze and Benjamin Van Durme ]
这篇文章介绍的是关于词法特征(Lexical Feature)的。
Context Sensitive Lemmatization Using Two Successive Bidirectional Gated Recurrent Networks [ Abhisek Chakrabarty, Onkar Arun Pandit and Utpal Garain ]
这篇文章提出了一个用来处理语言无关Lemmatisation的有监督的深度神经网络结构。作者还贡献了一个gold lemma标注数据（包含了1,702个句子，20,257个tokens）。
Deep Learning in Semantic Kernel Spaces [ Abhisek Chakrabarty, Onkar Arun Pandit and Utpal Garain ]
这篇文章介绍了一种将expressive kernels与DNN结合到一起的框架。它能比较好地建模结构信息，并且能够学习到非线性的决策面。最后实验表明“kernelized”的神经网络能在三个不同的task上实现了state-of-the-art的准确率。
From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood [ Kelvin Guu, Panupong Pasupat, Evan Liu and Percy Liang ]
这篇文章研究的是用自然语言生成程序代码，使用了增强学习和MML(maximum marginal likelihood)。并且提出了一个新的学习方法，它能够结合这两个算法的长处。实验部分作者用这个学习算法学习了一个全新的神经语义解析器（neural semantic parser），并且在最近的一个上下文相关语义解析(context-dependent semantic parsing)的task上的性能超过了state-of-the-art的方法。
Learning attention for historical text normalization by learning to pronounce [ Marcel Bollmann, Joachim Bingel and Anders Søgaard ]
这篇文章研究的是古文处理。作者提出了几个包括多任务学习的新的encoder-decoder的结构，将grapheme-to-phoneme dictionary作为附加数据，提升了2%的state-of-the-art的性能。
Learning to Create and Reuse Words in Open-Vocabulary Neural Language Modeling [ Kazuya Kawakami, Chris Dyer and Phil Blunsom ]
固定词表的语言模型没有考虑到那些经常被创造并重用的新类别的词汇。这篇文章提出了一个层级LSTM的语言模型来学习到如何重用之前产生过的单词。
Learning to Skim Text [ Adams Wei Yu, Quoc Le and Hongrae Lee ]
RNN在NLP的任务上已经取得了不错的成绩。但是让RNN阅读一大段很长的文本是非常耗时的事情。比如让RNN去阅读一整本书然后回答关于这本书的问题是非常困难的。这篇文章提出了一个方法能够在阅读的过程中按需跳过不相关的信息。实验表明，作者提出的带有跳转的LSTM最高能比标准的序列LSTM快6倍，同时还能取得甚至更好的准确性。
Multi-space Variational Encoder-Decoders for Semi-supervised Labeled Sequence Transduction [ Chunting Zhou and Graham Neubig ]
这篇文章讨论了序列转换(sequence transduction)的问题。文章提出了一个multi-space variational encoder-decoder的模型使用半监督学习的方法进行sequence transduction。实验表明这个模型不但是一个很强大的有监督学习框架，更能有效地利用无监督信息。
Probabilistic Typology: Deep Generative Models of Vowel Inventories [ Ryan Cotterell and Jason Eisner ]
这篇文章讨论了Vowel Inventories的问题。
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling [ Zhe Gan, Chunyuan Li, Changyou Chen, Yunchen Pu, Qinliang Su and Lawrence Carin ]
传统的RNN模型在语言模型方面显示出了很强的建模能力。然而训练RNN的传统算法如BPTT经常会导致overfit的问题。一个原因是随机优化并不能对模型的随机不确定性有一个很好的估计。这篇文章引入了随机梯度MCMC的方法来衡量RNN的不确定性。
Semi-Supervised QA with Generative Domain-Adaptive Nets [ Zhilin Yang, Junjie Hu, Ruslan Salakhutdinov and William Cohen ]
这篇文章研究的是半监督学习下的QA：使用未标注的文本来促进QA模型的性能。作者提出了一个名为Generative Domain-Adaptive Nets的模型。这个模型训练一个生成模型来根据未标注文本生成问题。然后将模型产生的问题和人类产生的问题作为QA模型的共同训练数据集。
Topically Driven Neural Language Model [ Jey Han Lau, Timothy Baldwin and Trevor Cohn ]
这篇文章介绍了一种考虑到了文档context的Language Model。实验证明稳重的模型能够在困惑度（perplexity）上胜过纯粹的基于sentence的模型。

Machine Translation 机器翻译

A Convolutional Encoder Model for Neural Machine Translation [ Jonas Gehring, Michael Auli, David Grangier and Yann Dauphin ]
传统机器翻译模型使用双向LSTM来编码源句子。这篇文章提出了一种更简单也更快速的卷积层方法，它能够同时编码整个句子，而传统的RNN只能受限于时序依赖而降低速度。
A Teacher-Student Framework for Zero-Resource Neural Machine Translation [ Yun Chen, Yang Liu, Yong Cheng and Victor O.K. Li ]
尽管端到端的机器翻译算法取得了巨大进展，但是语料的缺乏仍然是一个大问题。这篇文章提出了一种zero-resource的NMT方法，它能假定
平行语句都是由第三种语言以概率的方式生成。基于这个假设，这个方法能，这个模型能够在没有平行语料的情况下学习到源语言到目标语言的神经机器翻译模型。
Bandit Structured Prediction for Neural Sequence-to-Sequence Learning [ Julia Kreutzer, Artem Sokolov and Stefan Riezler ]
这篇文章介绍了Bandit feedback相关的工作。
[Chunk-based Decoder for Neural Machine Translation]( http://www.aclweb.org/anthology/P/P17/P17-1 174.pdf) [ Shonosuke Ishiwatari, Jingtao Yao, Shujie Liu, Mu Li, Ming Zhou, Naoki Yoshinaga, Masaru Kitsuregawa and Weijia Jia ]
这篇文章介绍了在NMT任务中使用Chunks的工作。这篇文章提出了一个chunk-based的decoder来进行NMT的工作。它包含了一个chunk-level的decoder和一个word-level的decoder。实验证实这个方法在WAT'16的English-to-Japanese翻译的task上取得了significant的improvement。
Deep Neural Machine Translation with Linear Associative Unit [ Mingxuan Wang, Zhengdong Lu, Jie Zhou and Qun Liu ]
DNN在NMT任务上已经有了不错的效果。但是用RNN的方法会由于非线性的激活函数，所以存在严重的梯度消失的问题。这篇文章使用了一种不同于其他方法（如LSTM和GRU）的模型LAU（linear associative units）。史岩表示在Chinese-English的翻译能够提升11.7 BLEU。在WMT14 English-German的任务上和一个更大的WMT14 English-French任务上，这个模型取得了state-of-the-art。
Doubly-Attentive Decoder for Multi-modal Neural Machine Translation [ Iacer Calixto, Qun Liu and Nick Campbell ]
这篇文章提出了一个使用了doubly-attentive decoder和用与训练好的CNN提取的特征组成的多模态神经机器翻译模型（Multi-modal Neural Machine Translation Model）。最后在Multi30k 数据集上达到了state-of-the-art的结果。
Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder [ Huadong Chen, Shujian Huang, David Chiang and Jiajun Chen ]
这篇文章通过直接引入了source-side语法树来提升了基于encoder-decoder框架的神经机器翻译模型。实验结果表示Chinese-English翻译的效果超过了基于attention机制的sequence模型。
Incorporating Word Reordering Knowledge into Attention-based Neural Machine Translation [ Jinchao Zhang, Mingxuan Wang, Qun Liu and Jie Zhou ]
这篇文章提出了三个distortion model来显式将word reordering的知识整合到attention-based的神经机器翻译模型并且提高性能。
Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search [ Chris Hokamp and Qun Liu ]
这篇文章提出了一个扩展了传统的beam search的算法Grid Beam Search(GBS)。这个算法能够包含一些预先定义好的词法限制。实验证实GBS能够对翻译质量打来很大的提升。
Modeling Source Syntax for Neural Machine Translation [ Junhui Li, Deyi Xiong, Zhaopeng Tu, Muhua Zhu and Guodong Zhou ]
这篇文章介绍了source syntax能够被显式地整合到NMT系统中，并且提高性能。
Neural Machine Translation via Binary Code Prediction [* Yusuke Oda, Philip Arthur, Graham Neubig, Koichiro Yoshino and Satoshi Nakamura*]
这篇文章提出了一种新方法来计算神经机器翻译系统的输出层。实验表明在两个English-Japanese的双向翻译的任务上达到的BLEU分数与其他方法相当，但是能够减少大量的内存消耗，并且大幅度提高解码速度。
Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization [ Jiacheng Zhang, Yang Liu, Huanbo Luan, Jingfang Xu and Maosong Sun ]
这篇文章提出使用posterior regularization来提供一个将先验知识整合到神经机器翻译系统中的通用方法。实验证实这个方法能使Chinese-English的翻译性能得到significant的improvements。
Sequence-to-Dependency Neural Machine Translation [ Shuangzhi Wu, Dongdong Zhang, Nan Yang, Mu Li and Ming Zhou ]
这篇文章提出了一个新的名为Sequence-to-Dependency Neural Machine Translation (SD-NMT)的方法。
Visualizing and Understanding Neural Machine Translation [ Yanzhuo Ding, Yang Liu, Huanbo Luan and Maosong Sun ]
尽管NMT近年来有了很大的进步，但是由于神经网络的非线性和连续的特征表达，我们很难解释清楚它到底是如何work的。这篇文章提出了一个layer-wise relevance propagation(LRP)来计算attention-based encoder-decoder框架中的每一个上下文词汇对隐层属性的贡献程度。
What do Neural Machine Translation Models Learn about Morphology? [ Yonatan Belinkov, Nadir Durrani, Fahim Dalvi, Hassan Sajjad and James Glass ]
这篇文章分析了NMT模型在不同level下学习到的representation。并且试验了多种不同的参数：word-based vs. character-based representations, encoding层的深度等等。

Multidisciplinary 多学科

A Nested Attention Neural Hybrid Model for Grammatical Error Correction [ Jianshu Ji, Qinlong Wang, Kristina Toutanova, Yongen Gong, Steven Truong and Jianfeng Gao ]
语法纠错(Grammatical error correction)是指纠正文本上的错误，包括顺序、用法、拼写等错误。这篇文章提出了一个新的混合了神经模型和nested attention层来进行这个工作。
Combating Human Trafficking with Multimodal Deep Models [ Edmund Tong, Amir Zadeh and Louis-Philippe Morency ]
贩卖人口问题日益严重。同时有一些公开的从事“护送”(escort)业务的网站暗地里进行着人口运输的勾当。这篇文章设计训练了一个深度多模态模型Human Trafficking Deep Network(HTDN)来识别疑似在贩卖人口的广告。文章提出了一个叫做Trafficking-10k的数据集，里面有超过10,000条带有标注的广告。
Friendships, Rivalries, and Trysts: Characterizing Relations between Ideas in Texts [ Chenhao Tan, Dallas Card and Noah A. Smith ]
这篇文章提出了一个能够通过idea在预料中的出现情况，独立且系统地刻画idea之间关系的框架。
TextFlow: A Text Similarity Measure based on Continuous Sequences [ Yassine Mrabet, Halil Kilicoglu and Dina Demner-Fushman ]
这篇文章的作者收到了DNA序列对齐算法的启发，提出了一个新的文本相似度检测框架。

Multilingual 多语言

Adversarial Training for Unsupervised Bilingual Lexicon Induction [ Meng Zhang, Yang Liu, Huanbo Luan and Maosong Sun ]
众所周知，词向量能够捕捉训练使用语言的语言学规律。研究者还发现这个规律可以跨语言地存在。这篇文章展示了一种跨语言的连接。这种连接能够在没有任何监督信息的情况下被产生。
[Cross-lingual Name Tagging and Linking for 282 Languages](Cross-lingual Name Tagging and Linking for 282 Languages) [ Xiaoman Pan, Boliang Zhang, Jonathan May, Joel Nothman, Kevin Knight and Heng Ji ]
这篇文章开发了一个跨282种语言的名字标注和linking框架。
Estimating Code-Switching on Twitter with a Novel Generalized Word-Level Language Detection Technique [ Shruti Rijhwani, Royal Sequiera, Monojit Choudhury, Kalika Bali and Chandra Shekhar Maddila ]
这篇文章关于文本的语种探测。
Found in Translation: Reconstructing Phylogenetic Language Trees from Translations [ Ella Rabinovich, Noam Ordan and Shuly Wintner ]
这篇文章介绍了从单语语料（从几个源语言翻译过来的）自动重构语言的系统树（Phylogenetic Language Trees）
Predicting Native Language from Gaze [ Yevgeni Berzak, Chie Nakamura, Suzanne Flynn and Boris Katz ]
在第二语言习得上一个很重要的问题是研究第一语言在语言学习中的角色。这篇文章提出了一个新的研究这个问题的方法。
Using Global Constraints and Reranking to Improve Cognates Detection [ Michael Bloodgood and Benjamin Strauss ]
这篇文章介绍的是同源词探测(Cognates Detection)。

Phonology Morphology Word Segmentation 基于音韵学和形态学的词切分

（这一部分）我基本都不懂啊。。。

Adversarial Multi-Criteria Learning for Chinese Word Segmentation [ Xinchi Chen, Zhan Shi, Xipeng Qiu and Xuanjing Huang ]
不同的语言学视角对中文分词产生了不同的评价依据。大多数已有的方法着眼于提升基于单个评价标准下的分词性能。这篇文章提出了一种使用多个评价标准的方法：adversarial multi-criteria learning。在8个数据集上的实验表明这个方法比传统方法有significant的improvement。
From Characters to Words to in Between: Do We Capture Morphology? [ Clara Vania and Adam Lopez ]
这篇文章介绍了一些关于词的形态学特性的研究。
Morphological Inflection Generation with Hard Monotonic Attention [ Roee Aharoni and Yoav Goldberg ]
这篇文章介绍了morphological inflection相关的问题。
MORSE: Semantic-ally Drive-n MORpheme SEgment-er [ Tarek Sakakini, Suma Bhat and Pramod Viswanath ]
这篇文章提出了一个进行morpheme segmentation的新方法。
One-Shot Neural Cross-Lingual Transfer for Paradigm Completion [ Katharina Kann, Ryan Cotterell and Hinrich Schütze ]
这篇文章介绍的是一种跨语言的paradigm completion的transfer方法。

Resources Evaluation 资源评估

A Corpus of Annotated Revisions for Studying Argumentative Writing [ Fan Zhang, Homa B. Hashemi, Rebecca Hwa and Diane Litman ]
这篇文章提出了一个议论文的between-draft revision的语料库：ArgRewrite。
Automatic Annotation and Evaluation of Error Types for Grammatical Error Correction [ Christopher Bryant, Mariano Felice and Ted Briscoe ]
这篇文章提出了一个名为ERRANT(ERRor ANnotation Toolkit)的语法错误标注工具包。
Detecting annotation noise in automatically labelled data [ Ines Rehbein and Josef Ruppenhofer ]
这篇文章介绍了一种自动标注文本时自动探测错误的方法。
Evaluation Metrics for Reading Comprehension: Prerequisite Skills and Readability [ Saku Sugawara, Yusuke Kido, Hikaru Yokono and Akiko Aizawa ]
这篇文章提出了两种新的评价尺度来评价阅读理解任务的性能。
MalwareTextDB: A Database for Annotated Malware Articles [ Swee Kiat Lim, Aldrian Obaja Muis, Wei Lu and Chen Hui Ong ]
这篇文章研究构建一个标注了恶意软件文本的新的数据集。
Polish evaluation dataset for compositional distributional semantics models [* Alina Wróblewska and Katarzyna Krasnowska-Kiera*]
这篇文章介绍了一个构建用来测试非英语的分布式语义模型的数据集的过程。

Semantics 语义

A Progressive Learning Approach to Chinese SRL Using Heterogeneous Data [ Qiaolin Xia, Zhifang Sui and Baobao Chang ]
这篇文章介绍的是语义角色标注(Semantic Role Labeling, SRL)相关的内容。中文SRL的一个问题主要是语料不足。还有就是语料稀疏性太强。这篇文章主要是通过使用很多混杂语料库来提升中文SRL。作者提出了一个新的学习模型，它使用了Progressive Neural Network和Gated Recurrent Adapters。这个模型能够比较好地适应混杂语料，并且能将他们之间的知识进行迁移。这篇文章还release了一个新的语料库：Chinese SemBank。在CPB 1.0 数据上的实验证实这个模型能够超过state-of-the-art的方法。
A Transition-Based Directed Acyclic Graph Parser for UCCA [ Daniel Hershcovich, Omri Abend and Ari Rappoport ]
这篇文章提出了一个为UCCA (Universal Conceptual Cognitive Annotation)设计的parser。
A Syntactic Neural Model for General-Purpose Code Generation [ Pengcheng Yin and Graham Neubig ]
这篇文章研究的是将自然语言描述转换成如Python的源代码的工作。已有的数据驱动的方法将这个问题看成语言生成的task而并没有考虑目标程序语言内部的语义成分。这篇文章提出了一个新的神经框架，通过一个语法模型来显式地捕捉目标语言的语法信息作为先验知识。实验发现这种方法能很容易地扩展到从自然文本描述产生非常复杂的程序代码。这个方法超过很多之前的代码生成工作，产生了state-of-the-art的结果。
Abstract Meaning Representation Parsing using LSTM Recurrent Neural Networks [ William Foland and James H. Martin ]
这篇文章提出了一个能够自动将句子解析成为Abstract Meaning Representation的系统，并且将state-of-the-art的结果提升了5%。
Abstract Syntax Networks for Code Generation and Semantic Parsing [ Maxim Rabinovich, Mitchell Stern and Dan Klein ]
编码生成和语义解析之类的任务需要将无结构（或者部分结构）的输入映射成格式化的可执行的输出。这篇文章介绍了一个能够进行这个工作的模型：abstract syntax networks。
An Interpretable Knowledge Transfer Model for Knowledge Base Completion [ Qizhe Xie, Xuezhe Ma, Zihang Dai and Eduard Hovy ]
Knowledge base是很多NLP应用的一个重要的资源，但是KB中有很多信息缺失。这篇文章提出了一个新的embedding模型ITransF来进行knowledge base completion。
Automatic Induction of Synsets from a Graph of Synonyms [ Dmitry Ustalov, Alexander Panchenko and Chris Biemann ]
这篇文章提出了一个新的基于图的方法来使用同义词词典寻找synsets。这个方法结果出众，超过5个state-of-the-art的方法。
Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding [ Yixin Cao, Lifu Huang, Heng Ji, Xu Chen and Juanzi Li ]
近年来，关于将文本和知识集成到统一的语义空间的研究非常非常热门，然而在common space的二义性仍然存在很多挑战。这篇文章提出了一个新的Multi-Prototype Mention Embedding模型来解决entity mentions的歧义问题。实验表明这个模型达到了state-of-the-art的性能。
Deep Multitask Learning for Semantic Dependency Parsing [ Hao Peng, Sam Thomson and Noah A. Smith ]
这篇文章提出了一个深度神经网络结构来将句子parse到三个semantic dependency graph formalisms。
Deep Semantic Role Labeling: What Works and What’s Next [ Luheng He, Kenton Lee, Mike Lewis and Luke Zettlemoyer ]
这篇文章介绍了一个新的深度学习模型来进行语义角色标注(semantic role labeling)的任务，并且达到了state-of-the-art的结果。
Enhanced LSTM for Natural Language Inference [ Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang and Diana Inkpen ]
归纳和推理对人类和AI来说都是至关重要的。在人类语言中对推理进行建模是一件具有挑战性的事情。随着大规模标注语料的出现，利用深度神经网络来进行这个任务逐渐变得可行。这篇文章提出了一个新方法，它能在Stanford Natural Language Inference Dataset达到state-of-the-art的水平(88.6% accuracy)。
Identifying 1950s American Jazz Composers: Fine-Grained IsA Extraction via Modifier Composition [ Ellie Pavlick and Marius Pasca]
这篇文章提出了一个populating fine-grained classes的方法。
Improved Word Representation Learning with Sememes [ Yilin Niu, Ruobing Xie, Zhiyuan Liu and Maosong Sun ]
这篇文章提出了一种使用word sememe信息来提升word representation learning性能的方法。实验教过表明词表示学习的结果能够从sememes中得到提升。
[Inducing Symbolic Meaning Representations for Semantic Parsing] 这篇文章疑似改名成： Learning Structured Natural Language Representations for Semantic Parsing [ Jianpeng Cheng, Siva Reddy, Vijay Saraswat and Mirella Lapata ]
这篇文章介绍了一种可解释且可扩展的神经语义解析器(neural semantic parser)。实验表明在Spades和GraphQuestions达到了state-of-the-art的水平，在GeoQuery和WebQuestions上达到了competitive的结果。
[Interactive Learning for Acquisition of Grounded Verb Semantics towards Human-Robot Communication] 这篇文章疑似改名成：Interactive Learning of Grounded Verb Semantics towards Human-Robot Communication [* Lanbo She and Joyce Chai*]
这篇文章提出了一种新的交互式学习方法。它能够让机器人主动向人类提问，然后学习grounded verb semantics的模型。
Learning a Neural Semantic Parser from User Feedback [ Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Jayant Krishnamurthy and Luke Zettlemoyer ]
这篇文章提出了一种方法能够快速简单地为一个新的领域构建一个自然语言到数据库之间的接口。这个系统的性能会基于用户的反馈随着时间逐步提升，并且只需要很少的认为干涉即可。
Learning bilingual word embeddings with (almost) no bilingual data [ Mikel Artetxe, Gorka Labaka and Eneko Agirre ]
大多数双语词向量都是用大量平行语料构建的，但是平行语料对很难获得。这篇文章使用了一个非常简单的自学习方法，能够用任何基于词典的映射技术来减少了对双语资源的需求。
Learning Character-level Compositionality with Visual Features [ Frederick Liu, Han Lu, Chieh Lo and Graham Neubig ]
在一些文字系统中，一个字符的含义是由字符的每个部分共同决定的（如中文的象形字）。这篇文章基于文字的视觉特性提出了一个embedding字符的模型。
Learning Translational Semantic Correspondences in Technical Documentation [ Kyle Richardson and Jonas Kuhn ]
这篇文章研究的是将high-level的文本描述翻译成为技术文档中的正式的表达(formal representations)。
Morph-fitting: Fine-Tuning Word Vector Spaces with Simple Language-Specific Rules [ Ivan Vulić, Nikola Mrkšić, Roi Reichart, Diarmuid Ó Séaghdha, Steve Young and Anna Korhonen ]
这篇文章介绍的是形态学、语义和词向量相关的内容。
Multimodal Word Distributions [ Ben Athiwaratkun and Andrew Wilson ]
这篇文章介绍了一种由混合高斯组成的一种多模态的分布式词表示，它能表示多个词义、蕴含深意，并且有丰富的信息。
Naturalizing a Programming Language via Interactive Learning [ Sida I. Wang, Sam Ginn, Percy Liang and Christopher D. Manning ]
这篇文章的目的是构建一个方便的自然语言接口来执行明确但是复杂的动作，比如数据分析，文本操作，或数据库查询等。
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis [ Hiroki Ouchi, Hiroyuki Shindo and Yuji Matsumoto ]
这篇文章提出了一个使用了grid-type recurrent neural network的模型来自动从句子的序列信息中自动推断对multi-predicate interactions敏感的特征。
Revisiting Recurrent Networks for Paraphrastic Sentence Embeddings [ John Wieting and Kevin Gimpel ]
这篇文章研究的是学习general-purpose、易解释的句子embedding。同时文章提出了一个新的框架Gated Recurrent Averaging Network。
Riemannian Optimization for Skip-Gram Negative Sampling [ Alexander Fonarev, Oleksii Hrinchuk, Gleb Gusev, Pavel Serdyukov and Ivan Oseledets ]
这篇文章提出了一种使用Riemannian优化Skip-Gram Negative Sampling的方法，并且证明了它的优越性。
Semantic Word Clusters Using Signed Spectral Clustering [ Joao Sedoc, Jean Gallier, Dean Foster and Lyle Ungar ]
这篇文章研究的是在词向量下词语间的语义关系。文章提出了一种新的表示词向量之间关系的算法：signed clustering。
Skip-Gram – Zipf + Uniform = Vector Additivity [ Alex Gittens, Dimitris Achlioptas and Michael W. Mahoney ]
这篇文章证明了使用Skip-Gram模型学习到的词向量具备additive compositionality。
The State of the Art in Semantic Representation [ Omri Abend and Ari Rappoport ]
这篇文章对几个semantic representation框架(比如 AMR, UCCA, GMB, UDS)进行了一个survey。
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension [ Mandar Joshi, Eunsol Choi, Daniel Weld and Luke Zettlemoyer ]
这篇文章提出了一个reading comprehension的数据库TriviaQA。这个数据库包含了650k个question-answer-evidence的三元组。它还包括了95K个question-answer pairs。
[Using Ontology-Grounded Token Embeddings To Predict Prepositional Phrase Attachments] 这篇文章疑似改名为： Ontology-Aware Token Embeddings for Prepositional Phrase Attachment [ Pradeep Dasigi, Waleed Ammar, Chris Dyer and Eduard Hovy ]
这篇文章将语义信息包含到了词嵌入想两种。提出了一个新的context-sensitive embedding的模型来预测介词短语(prepositional phrase, PP)并且能同时学习到概念的embeddings和模型的参数。

Sentiment Analysis Opinion Mining 情感分析和意见挖掘

A Multidimensional Lexicon for Interpersonal Stancetaking [ Umashanthi Pavalanathan, Jim Fitzpatrick, Scott Kiesling and Jacob Eisenstein ]
这篇文章关于stancetaking。
Active Sentiment Domain Adaptation [ Fangzhao Wu and Yongfeng Huang ]
领域适应(Domain adaptation)在情感分析中至关重要。现存的方法大多都依赖于用源领域训练的情感分类器。这篇文章提出了一个叫做active sentiment domain adaptation的方法来进行这件事。
An Unsupervised Neural Attention Model for Aspect Extraction [ Ruidan He, Wee Sun Lee, Hwee Tou Ng and Daniel Dahlmeier ]
观点抽取在情感分析中是很重要的一方面。现在的工作倾向于使用主题模型来进行这项工作。这篇文章提出了一个新的神经网络的方法来探索连贯性的aspect。
Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors [ Xuepeng Wang, Jun Zhao and Kang Liu ]
这篇文章提出了一种神经网络模型来进行冷启动下的垃圾评论探测（detect review spam for cold-start problem）。
Learning Cognitive Features from Gaze Data for Sentiment and Sarcasm Classification using Convolutional Neural Network [ Abhijit Mishra, Kuntal Dey and Pushpak Bhattacharyya ]
这篇文章提出了一个框架能够从文本阅读者的眼动(eye-movement)、凝视(gaze data)数据中自动捕捉认知特征，然后用这些特征和其他文本类的特征来进行情感极性探测。
Linguistic analysis of differences in portrayal of movie characters [ Anil Ramakrishna, Victor R. Martínez, Nikolaos Malandrakis, Karan Singla and Shrikanth Narayanan ]
这篇文章测试了在用心理语言学和图理论计算得到的对电影人物描述的区别。
Linguistically Regularized LSTM for Sentiment Classification [ Qiao Qian, Minlie Huang and xiaoyan zhu ]
理解情感在过去几十年中是AI的一个长期目标。这篇文章研究了句子级的情感分类。
[Modeling Contextual Relationship Among Utterances in Multimodal Sentiment Analysis] 这篇文章疑似改名成： Context-Dependent Sentiment Analysis in User-Generated Videos [ Soujanya Poria, Devamanyu Hazarika, Navonil Majumder and Erik Cambria ]
这篇文章提出了一个基于LSTM的模型来用视频中的utterances去捕捉它的上下文信息，以此来辅助进行分类。
Other Topics You May Also Agree or Disagree: Modeling Inter-Topic Preferences using Tweets and Matrix Factorization [ Akira Sasaki, Kazuaki Hanawa, Naoaki Okazaki and Kentaro Inui ]
这篇文章提出了一个对twitter用户inter-topic preference进行建模的方法：比如说，同意夸太平洋贸易协定(Trans-Pacific Partnership, TPP)的人也会同意自由贸易(free trade)。
Sarcasm SIGN: Interpreting Sarcasm with Sentiment Based Monolingual Machine Translation [ Lotem Peled and Roi Reichart ]
“挖苦”能够在语句中表达出强烈的色彩。这篇文章提出了一个新的任务：挖苦解释（sarcasm interpretation），就是说从一个带有挖苦的表示中生成一个同样意思的不带有挖苦的文本。
Volatility Prediction using Financial Disclosures Sentiments with Word Embedding-based IR Models [ Navid Rekabsaz, Mihai Lupu, Artem Baklanov, Alexander Dür, Linda Andersson and Allan Hanbury ]
波动率预测(volatility)是金融市场的一个重要指标，近年来有人通过使用情感分析的方法来解决这个问题。这篇文章调查了股票市场中公司年度披露文档的情感来预报波动率。

Social Media 社交媒体

Beyond Binary Labels: Political Ideology Prediction of Twitter Users [ Daniel Preoţiuc-Pietro, Ye Liu, Daniel Hopkins and Lyle Ungar]
这篇文章介绍的是用社交媒体的post预测政治倾向的相关内容。
CANE: Context-Aware Network Embedding for Relation Modeling [ Cunchao Tu, Han Liu, Zhiyuan Liu and Maosong Sun ]
Network embedding (NE)在network analysis的任务中扮演了至关重要的角色。这篇文章提出了一个全新的network embedding模型：Context-Aware Network Embedding (CANE)。
Detect Rumors in Microblog Posts Using Propagation Structure via Kernel Learning [Ma Jing, Wei Gao and Kam-Fai Wong]
这篇文章研究的是微博帖子的谣言探测。作者首先使用propagation tree来对微博的扩散进行建模。然后提出了一个叫做Propagation Tree Kernel的kernel-based的方法来捕捉谣言的高阶模式。实验表明这个方法探测谣言能够比state-of-the-art更快更准。
EmoNet: Fine-Grained Emotion Detection with Gated Recurrent Neural Networks [ Muhammad Abdul-Mageed and Lyle Ungar ]
这篇文章研究的是从自然语言中探测情感。这篇文章为了fine-grained emotion构建了一个非常大的数据集，并且开发了几个深度学习模型。实验表明这些方法成为新的state-of-the-art。
Leveraging Behavioral and Social Information for Weakly Supervised Collective Classification of Political Discourse on Twitter [Kristen Johnson and Dan Goldwasser ]
Frame是一种政治策略，它是指政客们对他们的statement精心设计来控制公众对事件的预期。这篇文章提出了一个弱监督的模型来从微博文本中判断frame的存在。
Unifying Text, Metadata, and User Network Representations with a Neural Network for Geolocation Prediction [ Yasuhide Miura, Motoki Taniguchi, Tomoki Taniguchi and Tomoko Ohkuma ]
这篇文章提出了一个使用复杂神经网络的地理预测模型(geolocation prediction model)。这篇文章利用了attention机制整合了文本、元数据(metadata)和用户网络表达(network representation)。

Speech 语音

[Joint CTC-attention End-to-end Speech Recognition] 这篇文章疑似改名为 Joint CTC/attention decoding for end-to-end speech recognition
[ Shinji Watanabe, Takaaki Hori and John Hershey ]
这篇文章提出了一个新的联合模型来进行自动语音识别。模型中混合了CTC(connectionist temporal classification)/attention架构。实验表明这个方法可以再没有语言学资源的情况下在日语和普通话两个benchmark实现了state-of-the-art的效果。
Learning Word-Like Units from Joint Audio-Visual Analysis [David Harwath and James Glass]
这篇文章展示了一个在给定一组图片和口语音频caption后，从连续语音段寻找word-like的acoustic units并寻找图片对应语义的区域。

Tagging Chunking Syntax Parsing 标注块语法解析

A Full Non-Monotonic Transition System for Unrestricted Non-Projective Parsing [ Daniel Fernández-González and Carlos Gómez-Rodríguez ]
这篇文章提出了一个基于non-projective Covington algorithm的全新切完全non-monotonic的transition system。
A Minimal Span-Based Neural Constituent Parser [Mitchell Stern, Jacob Andreas and Dan Klein]
这篇文章提出了一个基于对labels和spans独立打分的最小的神经模型来进行constituency parsing。
A* CCG Parsing with a Supertag and Dependency Factored Model [ Masashi Yoshikawa, Hiroshi Noji and Yuji Matsumoto ]
真篇文章提出了一个新的A* CCG parsing模型。
Aggregating and Predicting Sequence Labels from Crowd Annotations [An Thanh Nguyen, Byron Wallace, Junyi Jessy Li, Ani Nenkova and Matthew Lease]
这篇文章提出了几个新的方法来处理sequence label里面的那些错误的标注。
Generic Axiomatization of Families of Noncrossing Graphs in Dependency Parsing [ Anssi Yli-Jyrä and Carlos Gómez-Rodríguez ]
这篇文章提出了一种对未标注的非交叉图(noncrossing graph)的简单编码，并且证明它能够帮助我们来表达几类用在对上下文无关自然文本进行语法语义直接和非直接的图。
Neural Joint Model for Transition-based Chinese Syntactic Analysis [ Shuhei Kurita, Daisuke Kawahara and Sadao Kurohashi ]
这篇文章提出了一种基于神经网络的联合模型来进行中文分词。实验证明稳重的方法能够在中文分词和POS标注上打败已知的系统。
Neural Word Segmentation with Rich Pretraining [ Jie Yang, Yue Zhang and Fei Dong ]
这篇文章研究了使用大量的外部训练文本来构建一个合适的分词模型的有效性，并使用丰富的外部文本来与训练最重要的submodel。结果表明这个pretrain能大幅度提高模型性能。
Robust Incremental Neural Semantic Graph Parsing [ Jan Buys and Phil Blunsom ]
这篇文章提出了一个基于neural encoder-decoder transition的barser来进行linguistically-expressive semantic representation。
Parsing to 1-Endpoint-Crossing, Pagenumber-2 Graphs [Junjie Cao, Sheng Huang, Weiwei Sun and Xiaojun Wan]
这篇文章研究的是用深度学习的方法进行依存句法分析的工作。
Semantic Dependency Parsing via Book Embedding [ Weiwei Sun, Junjie Cao and Xiaojun Wan ]
作者将一个dependency graph建模成一本书（即一个特殊的拓扑空间内）然后进行语义依存句法分析。
Semantic Parsing of Pre-university Math Problems [ Takuya Matsuzaki, Takumi Ito, Hidenao Iwane, Hirokazu Anai and Noriko H. Arai ]
这篇文章开发了一个端到端的数学题目解题系统。
Semi-supervised Multitask Learning for Sequence Labeling [ Marek Rei ]
这篇文章提出了一个带有次级训练目标的序列标注框架。它能用来学习去预测数据集中每一个词的包围词。
Semi-supervised sequence tagging with bidirectional language models [ Matthew Peters, Waleed Ammar, Chandra Bhagavatula and Russell Power ]
这篇文章介绍了一个通用的半监督方法来为双向语言模型增加与训练过的上下文embedding。
Universal Dependencies Parsing for Colloquial Singaporean English [ Hongmin Wang, Yue Zhang, GuangYong Leonard Chan, Jie Yang and Hai Leong Chieu ]
这篇文章介绍的是针对新加坡式英语的依存句法分析的工作。

Vision Robots Grounding 视觉机器人基础

[Combining distributional and referential information for naming objects through cross-modal mapping and direct word prediction] 这篇文章疑似改名为 Obtaining referential word meanings from visual and distributional information: Experiments on object naming [Sina Zarrieß and David Schlangen ]
这篇文章提出了一个模型来为object naming任务学习到独立的predicators。
FOIL it! Find One mismatch between Image and Language caption [ Ravi Shekhar, Sandro Pezzelle, Yauhen Klimovich, Aurélie Herbelot, Moin ]
这篇文章尝试去理解现在的语言和视觉模型是否真的能捕捉到跨越两个模态的interaction。
[Multi-Task Video Captioning with Visual and Textual Entailment] 这篇文章疑似改名为： Multi-Task Video Captioning with Video and Entailment Generation [ Ramakanth Pasunuru and Mohit Bansal ]
这篇文章研究的是通过共享两个相关的生成任务的知识来提升视频标注的性能。
Translating Neuralese [ Jacob Andreas, Anca Dragan and Dan Klein ]
这篇文章研究的是提升去中心化深度多智能体（decentralized deep multiagent）的策略问题。这篇文章试图去翻译智能体之间传输的信息。
Verb Physics: Relative Physical Knowledge of Actions and Objects [ Maxwell Forbes and Yejin Choi ]
在自然文本中会隐藏一些暗指的knowledge，例如“Tyler entered his house”暗指这个house比Tyler大。这篇文章对两个闭式问题提出了一个用来获取知识的联合推断模型：(1)学习两个对象pair的相对物理知识。(2)学习应用在对象pair上的动作的隐含知识。