论文列表——杂

这篇博文主要是记录平常通过各类渠道(公众号推送、知乎浏览、博客阅读等等)获知的质量较高论文的笔记。可能有各个类别的,可能有几年的经典论文重读,或者是2018年好的科研成果,这里进行简要记录,之后基本都是要单开博文来详细写笔记的。

名称来源类型时间阅读价值笔记
An Introductory Survey on Attention Mechanisms in NLP Problemsarxiv-2018.11.125attention在NLP各类任务中的使用。TO BE CONTINUED。
Attention, please! A Critical Review of Neural Attention Models in Natural Language Processingarxiv-2019.2.45同上。TO BE CONTINUED。
Neural Natural Language Inference Models Enhanced with External KnowledgeACLlong paper20184用词关系来辅助判断attention的权重,通过影响权重来使NN对不同词施加不同的重视,达到引入外部知识的目的。TO BE CONTINUED。
Document Modeling with External Attention for Sentence ExtractionACLlong paper20183.5提供一种新方式:attention做句子抽取,其它两种常见的attention用法是增强语义表示、计算相似度、以及这一篇的提取证据,对attention的利用逐层加深。
Supervised Learning of Universal Sentence Representations from Natural Language Inference DataACLlong paper20174在NLI数据集上构建通用意义的句向量表示,17年的文章,已经有18年几篇大刀阔斧革新的文章的那种感觉了,关键词:句级别表示、迁移学习
Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question AnsweringCOLINGbest-reproduction-paper20185浮现了前人的各种工作,并且进行了更大范围的实验评测。TO BE CONTINUED。
A Lexicon-Based Supervised Attention Model for Neural Sentiment AnalysisCOLINGlong paper20184又提供了一种通过影响attention权值来控制NN的思路,通过构建gold attention vector,和NN产生的attention vector做比较,加入到loss中,使NN能够按先验的方式来注重attention的建模。TO BE CONTINUED。
A Knowledge-Augmented Neural Network Model for Implicit Discourse Relation ClassificationCOLINGlong paper20182discourse相关的任务。
A Decomposable Attention Model for Natural Language InferenceEMNLPshort paper20164词向量层面通过对齐的思路来做attention,简单优雅的方法,Google的文章,工业风十足。虽然是老文章,但是alignment这种思路值得回看。TO BE CONTINUED。
Bilateral multi-perspective matching for natural language sentencesIJCAIshort paper20174利用LSTM处理两端文本,在隐状态层面进行对齐,可以和上一篇结合着看。TO BE CONTINUED。
End-To-End Memory NetworksNPISlong paper20155经典好文,将memory network修改,使其能够端到端的训练,是后续很多文章的理论基础。memory其实就是一堆可以持续训练的向量,在feed-forward和bp过程中,参与更新,供网络查询,提供“特殊信息”,尽管具有不可解释性,但本质上是用一个矩阵去拟合网络中某部分的特征,持续使用,直观上像memory。TO BE CONTINUED。
Attention Is All You NeedNIPSlong paper20175G厂出品。引入全attention网络——Transformer,Encoder-Decoder架构,文本模型也可以做得非常“深”。Attention在结构上就不存在RNN的长距离依赖问题,因此有潜力成为最强的编码文本的模型单元。TO BE CONTINUED。
Improving Language Understanding by Generative Pre-TrainingNIPSlong paper20185OpenAI的GPT,2018年中推出,刷爆各类NLP榜单。基于Transformer的decoder block构建语言模型,在高质量语料库上进行预训练,通过在模型末端构建各类接口,能够充分把模型预训练的先验知识用于下游任务。TO BE CONTINUED。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understandingarxivlong paper2018年底5G厂大作,2018年NLP领域最重磅的科研成果,基本预定了2019ACL的best paper了。文章基于Transformer block,构建“真”双向语言模型。引入了Masker LM 和 Next Sentence Prediction两个预训练任务,在更大更好的数据集上训练。针对不同任务类型,在模型末端接不同的接口,直接在迁移任务上fine-tune,效果直接爆炸。本人也是之前做了比较久的一个分类数据集,上BERT后直接高出SOTA三个点,最终只能弃坑。BERT刷爆所有它刷过的11项榜单,很多任务效果远强于原SOTA。TO BE CONTINUED。

未完待续…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值