论文阅读
文章平均质量分 84
lpty
走进科学
展开
-
Deep Sentence Embedding Using Long Short-Term Memory Networks
一、概述这种方式来自于论文Deep Sentence Embedding Using Long Short-Term Memory Networks,简单的来说应该是一种生成句向量的方法。二、思路论文中作者对比了很多相关工作,总而言之就LSTM-RNN这种方法相对而言有很大优势,这里就不列出来了。1、基本方法基本想法是将文本序列转化为向量,然后利用LSTM-RNN的结构进行...原创 2018-06-11 14:11:10 · 1608 阅读 · 0 评论 -
ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
引言Wenpeng Yin等发表在arXiv上的论文,原文地址:地址这应该是第一篇提出Attention用于CNN的文章,主要用来解决句子对的问题,作者在answer selection (AS),、paraphrase identification(PI)、textual entailment (TE)三个任务上进行实验,均取得了不错的结果。模型...原创 2019-01-02 17:36:34 · 1990 阅读 · 0 评论 -
Attention Is All You Need
引言google 在2017年发布的一篇论文,即是transformer,原文地址:Attention Is All You Need原创 2019-01-07 21:59:16 · 2645 阅读 · 0 评论 -
Some papers about NLP
Attention1、Neural Machine Translation by Jointly Learning to Align and Translate2、Effective Approaches to Attention-based Neural Machine Translation3、ABCNN: Attention-Based Convolutional Neural Net...原创 2019-01-14 19:38:44 · 900 阅读 · 0 评论 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
引言Google在2018年发出来的论文,原文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding原创 2019-01-15 19:29:32 · 3436 阅读 · 0 评论 -
An Information Retrieval Approach to Short Text Conversation
引言Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv.org/pdf/1408.6988.pdf基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candi...原创 2019-02-01 17:10:34 · 1024 阅读 · 1 评论 -
Identity Mappings in Deep Residual Networks
引言ResNet来自2015年he等人的paper:Deep Residual Learning for Image Recognition原创 2019-03-21 10:23:36 · 1312 阅读 · 0 评论 -
Deep contextualized word representations
引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中,词都是一种静态的形式,无论在任何的上下文中都使用同一个向量。这种情况下很难表示一词多义的现象,而ELMo则可以通过上下文动态生成词向量,从理论上会是更好的模型,从实测效果来看在很多任务上也都达到了当时的SOTA成绩。原创 2019-04-04 09:49:04 · 3496 阅读 · 0 评论 -
Siamese CBOW: Optimizing Word Embeddings for Sentence Representations
引言Siamese CBOW,来自Tom Kenter等的于2016年发的论文:Siamese CBOW: Optimizing Word Embeddings for Sentence Representations作者提到,当前的很多句向量的表示方法都是简单的用词向量的加和平均,这种方法表现出一定的有效性,但是并没有针对特定任务的句向量进行优化的方法。因此本文提出一种训练句向量的方法,借...原创 2019-04-15 17:29:48 · 1123 阅读 · 0 评论 -
Reducing BERT Pre-Training Time from 3 Days to 76 Minutes
引言Bert在工业使用中表现相当优异,但是预训练时间非常的长。Bert的作者公开的记录是用了16块TPU训练了三天。本论文就是针对训练时间上进行的优化,提出了LAMB优化方式,在不损失训练精度的情况下,将BERT的训练时间缩短到了76分钟,如下:原创 2019-04-09 11:24:08 · 850 阅读 · 0 评论 -
A Convolutional Neural Network for Modelling Sentences
引言Nal Kalchbrenner等人在2014年arXiv上的paper,原文地址:arXiv:1404.2188v1 [cs.CL] 8 Apr 2014。自然语言处理的基础问题在于句子的语义表示,其他特定的任务如分类等都是在语义表示的基础上进行高层次的处理,所以如何对句子进行表达就成为了核心问题。针对目前存在的模型,作者提出了DCNN–Dynamic Convolutional Ne...原创 2018-12-11 23:53:30 · 2545 阅读 · 0 评论 -
Effective Approaches to Attention-based Neural Machine Translation
引言Minh-Thang Luong等在2015年arXiv上的论文,原文地址:地址这是继Bahdanau提出attention用于NLP的后续工作,作者提出了两种新的,相对于前面工作简单但有效的网络,一种称为global方法,实现上与Bahdanau使用的方式很相似,在每一次生成目标词时,都需要所有对源语句隐藏状态计算相似度,但相对来说更为直接简单;另一种称为local方法,不同的是在计算时...原创 2018-12-28 10:45:54 · 3906 阅读 · 0 评论 -
Neural Machine Translation by Jointly Learning to Align and Translate
引言Dzmitry Bahdanau等人在2016年arXiv上的paper,原文地址arXiv:1409.0473v7 [cs.CL] 19 May 2016这篇应该是最早将Attention机制用到NLP中的论文,作者提到神经网络机器翻译的目标是训练一个单一庞大的网络去直接生成翻译结果,相比统计机器翻译由各个小组件进行结合有很大不同。而一般的神经网络机器翻译模型都是由一个encoder与...原创 2018-12-19 17:33:04 · 686 阅读 · 0 评论 -
Text Matching as Image Recognition
一、概述MatchPyramid来自Liang Pang等在2016发表的一篇文章Text Matching as Image Recognition,大意为利用图像识别的方式进行文本匹配。二、思路对于文本匹配,基本思路如下述公式: 其中T为文本,函数θθθ代表将文本转换为对应的表示,函数FFF则代表两个文本表示之间的交互关系。 由侧重点不同可分为表示方法与交互方法,即注重θθ...原创 2018-06-11 11:48:51 · 4893 阅读 · 0 评论 -
Replace or Retrieve Keywords In Documents At Scale
一、概念Flashtext主要用于关键字搜索与替换,来自于论文:Replace or Retrieve Keywords In Documents At Scale 论文中提到,Flashtext基于 Trie 字典数据结构和 Aho Corasick,但从搜索方式上,只匹配完整的词而不会匹配子字符串,如: 模式串‘apple’不会匹配到字符串’I like Pineapple’中的‘ap...原创 2018-05-04 10:56:31 · 2120 阅读 · 3 评论 -
How to Strike a Match
一、概念来自于Simon White发表的一篇文章:How to Strike a Match 这个算法主要为了满足以下三个需求:(1)字符串之间只是在某几个字符处出现不同,那么相似度应该比较高。(2)字符串的区别只是相同的词组以不同的顺序排列,那么相似度应该比较高。(3)语言无关性,算法应该满足多种语言的的相似度计算。论文中对比了几种相似度算法, Soundex Algor...原创 2018-05-02 15:55:08 · 1163 阅读 · 0 评论 -
From Word Embeddings To Document Distances
一、概念词移距离来自于论文:From Word Embeddings To Document Distances 从论文题目可以看出,主要是基于词向量的工作。w2v构造了一个词与词之间衡量相似度的方法,但是对于句子或者文档来说,单纯基于词的衡量方法在一定程度上遗漏了句子的信息,而WMD参考了EMD的内容,成为计算文档相似度的一种方法。二、思想如果希望反映出文档的内在含义,一个比较直观...原创 2018-05-02 11:33:17 · 4109 阅读 · 0 评论 -
Linear classifiers do not share parameters among features and classes
一、概述标题来自Bag of Tricks for Efficient Text Classification,就是fasttext这篇文章二、简析1、解析下述截图来自:https://datascience.stackexchange.com/questions/30605/what-is-meant-by-sharing-of-parameters-between-features-a...原创 2018-11-01 10:23:25 · 200 阅读 · 0 评论 -
Monte Carlo Integration
引言Monte Carlo Integration,即蒙特卡罗积分,这是一种很常用的数学方法,原理上也可以很直观的列出来内容(一)投点法求定积分如下图,求函数f(x)从a到b的定积分。用面积为A的矩型罩在函数的积分区间上,随机地向这个矩形框里面投点,其中落在函数f(x)下方的点为绿色,其它点为红色。统计绿色点的数量占所有点(红色+绿色)数量的比例为r,据此估算出函数f(x)从a到b的定积...原创 2018-11-06 16:18:39 · 4139 阅读 · 0 评论 -
Convolutional Neural Networks for Sentence Classification
引言这是Yoon Kim发表于2014年的EMNLP上的论文,也就是经常说到的TextCNN。CNN一开始提出来是作为图像或者语音这种特征连续任务的处理方式,这篇论文则是尝试将CNN用于文本这种离散型的任务中。模型前面说到CNN是处理连续型数据的,所以对于文本而言,就需要进行离散特征连续化,目前比较流行的应该是word2vec的方式,另外对于长度不同的文本就需要考虑padding了,网络结...原创 2018-11-15 17:19:50 · 890 阅读 · 0 评论 -
A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification
引言Ye Zhang在2016年挂在arXiv上的论文,从名字大概可以看出来,这是一篇CNN调参指南。概述模型方面用的是单层CNN,主要是CNN用做文本分类方面的研究,模型结构如下所示:上述模型来自Convolutional Neural Networks for Sentence Classification,详细的介绍可以参考:博文内容Baseline Models为了跟CNN...原创 2018-11-19 23:52:09 · 2077 阅读 · 0 评论 -
Recurrent Neural Network for Text Classification with Multi-Task Learning
引言Pengfei Liu等人在2016年的IJCAI上发表的论文,论文提到已存在的网络都是针对单一任务进行训练,但是这种模型都存在问题,即缺少标注数据,当然这是任何机器学习任务都面临的问题。为了应对数据量少,常用的方法是使用一个无监督的预训练模型,比如词向量,实验中也取得了不错的效果,但这样的方法都是间接改善网络效果。作者提出了一种新的方法,将多个任务联合起来训练,用来直接对网络进行改善,...原创 2018-12-05 17:34:04 · 3994 阅读 · 0 评论 -
DECOUPLED WEIGHT DECAY REGULARIZATION
引言Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adaptive Moment Estimation,里面也介绍了一些对于Adam效果不好的研究工作。这篇论文依...原创 2019-04-09 17:20:59 · 3665 阅读 · 0 评论