论文笔记
文章平均质量分 88
MagicBubble
follow excellence,success will chase you!
展开
-
论文笔记:Learning to Detect Violent Videos using Convolutional Long Short-Term Memory
Learning to Detect Violent Videos using Convolutional Long Short-Term Memory阅读笔记,主要是对视频做暴力/非暴力的二分类,使用了convLSTM的方法,取得了不错的效果原创 2017-12-06 21:39:25 · 1974 阅读 · 6 评论 -
MT-DNN解读(论文 + PyTorch源码)
前一段时间,看到了微软发布了用于学习通用语言嵌入的多任务深度神经网络模型MT-DNN,可谓是紧随BERT之后,结合他们之前的MTL工作以及BERT的优势,在10项NLU任务上的表现都超过了BERT。原创 2019-04-25 15:59:07 · 7007 阅读 · 3 评论 -
BERT解读(论文 + TensorFlow源码)
BERT,全称Bidirectional Encoder Representations from Transformers,是Google在18年11月份推出的一个NLP预训练的模型,它一出现,就横扫各大NLP任务的SoTA,并且Google还良心的放出了源码和预训练模型,可以说是像ImageNet那种里程碑式的突破。原创 2019-04-25 13:20:40 · 8633 阅读 · 1 评论 -
GPT-2解读(论文 + TensorFlow实现)
GPT-2是对GPT的一个升级,并且更着重于将思路放在为何pretrain是有用的上面,认为LM本身是一个Multi-task Learner,并且大力用ZSL实验来佐证这个思路。原创 2019-04-24 17:39:54 · 18381 阅读 · 6 评论 -
GPT解读(论文 + TensorFlow实现)
GPT这篇论文,我还是在GPT-2出来了之后,被它能续写红楼梦这一事件而震惊,所以才统一看了一下这两篇论文。这俩都是OpenAI出的,也是用pretrain+fintune的套路进行处理。原创 2019-04-24 16:38:31 · 9682 阅读 · 2 评论 -
ULMFiT解读(论文 + PyTorch源码)
可能是笔者孤陋寡闻,感觉这篇论文没有BERT、ELMo这么火,笔者也是在搜索相关话题的文章的时候,看到大家都会带着ULMFiT进行分析,因此也就去研究了一下。总体来说,这篇论文也是pretrain+finetune的思路,探索的比较浅,主要用来做文本分类,而且trick相对来说也比较多。但整体的思路比较值得借鉴。原创 2019-04-24 15:04:36 · 6072 阅读 · 6 评论 -
《NEURAL READING COMPREHENSION AND BEYOND》解读(陈丹琦博士论文)
之前在听standford的cs224n自然语言处理课程的时候,就有一段是请陈丹琦来这边讲她最近的一些工作,我记得还是在embedding上的进展。听的时候,就觉得像是一个中国小姐姐,后面在这篇爆款博士论文出来的时候,就特意去查了一下,果然是大神!陈丹琦的博士论文是关于机器阅读理解的,这是近期的一个研究热点,与笔者的专业也比较相关,因此就拜读了一下,并将其主要内容进行梳理。原创 2019-04-24 11:08:05 · 1488 阅读 · 2 评论 -
Transformer解读(论文 + PyTorch源码)
2017年6月,Google发布了一篇论文《Attention is All You Need》,提出了Transformer模型。正如论文的名称所说,其旨在全部利用Attention方式来替代掉RNN的循环机制,从而能并行化计算并实现提速。同时,在特定的任务上,这个模型也超过了当时Google神经机器翻译模型。笔者主要阅读了论文及两篇博客(链接见文末的传送门),这里主要是对这些内容做一个整合和提炼~原创 2019-04-08 20:22:17 · 34647 阅读 · 6 评论 -
ELMo解读(论文 + PyTorch源码)
ELMo出自Allen研究所在NAACL会议上发表的一篇论文《Deep contextualized word representations》,从论文名称看,应该是提出了一个新的词表征的方法。据他们自己的介绍:ELMo是一个深度带上下文的词表征模型,能同时建模(1)单词使用的复杂特征(例如,语法和语义);(2)这些特征在上下文中会有何变化(如歧义等)。这些词向量从深度双向语言模型(biLM)的隐层状态中衍生出来,biLM是在大规模的语料上面Pretrain的。它们可以灵活轻松地加入到现有的模型中...原创 2019-04-11 16:45:15 · 15866 阅读 · 19 评论 -
Transformer-XL解读(论文 + PyTorch源码)
CMU联合Google Brain在2019年1月推出的一篇新论文《Transformer-XL:Attentive Language Models beyond a Fixed-Length Context》同时结合了RNN序列建模和Transformer自注意力机制的优点,在输入数据的每个段上使用Transformer的注意力模块,并使用循环机制来学习连续段之间的依赖关系。Transformer-XL在多种语言建模数据集上实现了SoTA的效果,并且还有完整的源码!原创 2019-04-07 23:22:03 · 31806 阅读 · 29 评论 -
XLM解读(论文 + PyTorch源码)
这篇论文是Facebook在BERT的基础上发展出来的Cross-Lingual版本,即多语的。1. 引入了一个新的无监督方法,用于训练多语的表征,并且提出两个单语的预训练LM目标2. 提出了一种新的有监督方法,使用平行语料,来增强多语预训练的表现3. 在跨语言分类、有/无监督机器翻译任务上,达到了新的SoTA4. 对于resource比较少的语言,用这种预训练方式很有帮助5. 重点来了!有源码和预训练模型原创 2019-04-25 17:38:08 · 8510 阅读 · 3 评论