这篇博文主要是记录平常通过各类渠道(公众号推送、知乎浏览、博客阅读等等)获知的质量较高论文的笔记。可能有各个类别的,可能有几年的经典论文重读,或者是2018年好的科研成果,这里进行简要记录,之后基本都是要单开博文来详细写笔记的。
名称 | 来源 | 类型 | 时间 | 阅读价值 | 笔记 |
---|---|---|---|---|---|
An Introductory Survey on Attention Mechanisms in NLP Problems | arxiv | - | 2018.11.12 | 5 | attention在NLP各类任务中的使用。TO BE CONTINUED。 |
Attention, please! A Critical Review of Neural Attention Models in Natural Language Processing | arxiv | - | 2019.2.4 | 5 | 同上。TO BE CONTINUED。 |
Neural Natural Language Inference Models Enhanced with External Knowledge | ACL | long paper | 2018 | 4 | 用词关系来辅助判断attention的权重,通过影响权重来使NN对不同词施加不同的重视,达到引入外部知识的目的。TO BE CONTINUED。 |
Document Modeling with External Attention for Sentence Extraction | ACL | long paper | 2018 | 3.5 | 提供一种新方式:attention做句子抽取,其它两种常见的attention用法是增强语义表示、计算相似度、以及这一篇的提取证据,对attention的利用逐层加深。 |
Supervised Learning of Universal Sentence Representations from Natural Language Inference Data | ACL | long paper | 2017 | 4 | 在NLI数据集上构建通用意义的句向量表示,17年的文章,已经有18年几篇大刀阔斧革新的文章的那种感觉了,关键词:句级别表示、迁移学习 |
Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering | COLING | best-reproduction-paper | 2018 | 5 | 浮现了前人的各种工作,并且进行了更大范围的实验评测。TO BE CONTINUED。 |
A Lexicon-Based Supervised Attention Model for Neural Sentiment Analysis | COLING | long paper | 2018 | 4 | 又提供了一种通过影响attention权值来控制NN的思路,通过构建gold attention vector,和NN产生的attention vector做比较,加入到loss中,使NN能够按先验的方式来注重attention的建模。TO BE CONTINUED。 |
A Knowledge-Augmented Neural Network Model for Implicit Discourse Relation Classification | COLING | long paper | 2018 | 2 | discourse相关的任务。 |
A Decomposable Attention Model for Natural Language Inference | EMNLP | short paper | 2016 | 4 | 词向量层面通过对齐的思路来做attention,简单优雅的方法,Google的文章,工业风十足。虽然是老文章,但是alignment这种思路值得回看。TO BE CONTINUED。 |
Bilateral multi-perspective matching for natural language sentences | IJCAI | short paper | 2017 | 4 | 利用LSTM处理两端文本,在隐状态层面进行对齐,可以和上一篇结合着看。TO BE CONTINUED。 |
End-To-End Memory Networks | NPIS | long paper | 2015 | 5 | 经典好文,将memory network修改,使其能够端到端的训练,是后续很多文章的理论基础。memory其实就是一堆可以持续训练的向量,在feed-forward和bp过程中,参与更新,供网络查询,提供“特殊信息”,尽管具有不可解释性,但本质上是用一个矩阵去拟合网络中某部分的特征,持续使用,直观上像memory。TO BE CONTINUED。 |
Attention Is All You Need | NIPS | long paper | 2017 | 5 | G厂出品。引入全attention网络——Transformer,Encoder-Decoder架构,文本模型也可以做得非常“深”。Attention在结构上就不存在RNN的长距离依赖问题,因此有潜力成为最强的编码文本的模型单元。TO BE CONTINUED。 |
Improving Language Understanding by Generative Pre-Training | NIPS | long paper | 2018 | 5 | OpenAI的GPT,2018年中推出,刷爆各类NLP榜单。基于Transformer的decoder block构建语言模型,在高质量语料库上进行预训练,通过在模型末端构建各类接口,能够充分把模型预训练的先验知识用于下游任务。TO BE CONTINUED。 |
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | arxiv | long paper | 2018年底 | 5 | G厂大作,2018年NLP领域最重磅的科研成果,基本预定了2019ACL的best paper了。文章基于Transformer block,构建“真”双向语言模型。引入了Masker LM 和 Next Sentence Prediction两个预训练任务,在更大更好的数据集上训练。针对不同任务类型,在模型末端接不同的接口,直接在迁移任务上fine-tune,效果直接爆炸。本人也是之前做了比较久的一个分类数据集,上BERT后直接高出SOTA三个点,最终只能弃坑。BERT刷爆所有它刷过的11项榜单,很多任务效果远强于原SOTA。TO BE CONTINUED。 |
– | – | – | – | – | – |
未完待续…