Deep Learning
kaiyuan_sjtu
这个作者很懒,什么都没留下…
展开
-
假如BERT系论文变成Commit History
最近,我在Twitter上发现了一个有趣的话题,假设有这样一个场景,论文研究在GitHub上发布,而后续论文则会提交与原始论文不同之处。在人工智能机器学习领域,信息过载一直是一个大问题,每个月都有大量新论文发表,这样的通过commit history展示方式或许会给你带来眼前一亮。下面我们就来蹭蹭大明星BERT的热度,来看看这一场景应用到BERT系论文会是什么样子的?commit arXiv:1810.04805Author: Devlin et al.Date: Thu Oct 11 00:原创 2020-05-16 10:42:08 · 992 阅读 · 0 评论 -
BART原理简介与代码实战
写在前面最近huggingface的transformer库,增加了BART模型,Bart是该库中最早的Seq2Seq模型之一,在文本生成任务,例如抽象总结方面达到了SOTA的结果。本次放出了三组不同的预训练权重:bart-large:基础预训练模型;bart-large-cnn:基础模型在 CNN/Daily Mail Abstractive Summarization Task微调...原创 2020-03-27 21:53:46 · 10260 阅读 · 4 评论 -
我从AI For Everyone学到的十个重要AI 概念
在这个人机共存的年代,每个人都应该去尝试了解并运用人工智慧这个超能力。思考自己未来在这个变化快速的世界的定位原创 2020-03-21 18:00:01 · 967 阅读 · 0 评论 -
微软UNILM 2.0:优雅的统一预训练模型
写在前面印象中Illustrating XXX系列的文章感觉都很有趣,这次就来标题党一把哈哈,不好勿喷~刷arxiv看到了之前比较喜欢的一个工作UNILM的续集,这不得提高优先级先来品品(虽然还有一大堆TODO)。关于UNILM 1.0 在之前的文章中已经有介绍了,见站在BERT肩膀上的NLP新秀们(PART II),这种做到NLU和NLG简洁统一的框架真的是非常赞!目前NLP预训练模型主要...原创 2020-03-19 15:59:46 · 11008 阅读 · 0 评论 -
Transformers Assemble(PART V)
写在前面 Set Transformer from OX,ICML2019 Star-Transformer from FDU,NAACL 2019Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksNLP的输入基本都是有顺序性的,但是还有很多机器学习任务的输入都是顺...原创 2020-03-10 17:26:51 · 1036 阅读 · 0 评论 -
NLP简报(Issue#6)
本文首发于公众号:NewBeeNLP欢迎来到 NLP 时事简报第六期!全文较长,建议收藏。如果想让自己有趣的研究/项目出现在NLP简报中,欢迎在公众号后台留言联系我来看看都有哪些内容,enjoy~文章目录1、Publications ????1.1 BERT综述1.2 T51.3 12合1:多任务视觉和语言表示学习1.4 BERT文本表示的跨模式可传递性2、Creativity and Soc...原创 2020-03-05 15:33:30 · 1207 阅读 · 0 评论 -
Transformers Assemble(PART IV)
写在前面 Sparse Transformer from OpenAI,NAACL 2019 Adaptively Sparse Transformers,EMNLP2019Generating Long Sequences with Sparse Transformers来自OpenAI的工作,同样关注于原始Transformer的计算复杂度问题,尤其是在面对长序列输入的情况。为此,...原创 2020-02-24 21:24:53 · 2341 阅读 · 0 评论 -
Transformer Assemble(PART III)
写在前面 Reformer from Google,ICLR2020REFORMER: THE EFFICIENT TRANSFORMER经过之前一段时间的NLP Big Bang,现在相对比较平静了,Transformer系已经占据了绝对的主导地位,在各类应用中表现出色。尽管如此,传统的Transformer仍然存在着一些问题,比如内存占用大、计算复杂度大、无法较好处理长文本等。针对以...原创 2020-02-20 13:18:16 · 2324 阅读 · 0 评论 -
NLP简报(Issue#1)
欢迎来到船新栏目NLP简报,本新闻简报的目的是让你不必花费太多时间就可以了解与NLP和ML有关的一些有趣和最新的故事。如果想让自己有趣的研究/项目出现在NLP简报中,随时在公众号后台留言联系我文章目录1、Publications ????1.1 用于乳腺癌筛查的AI系统1.2 信息抽取1.3 Improved recommendations2、Creativity and Society ????2....原创 2020-02-18 11:27:56 · 1990 阅读 · 0 评论 -
NLP简报(Issue #3)
欢迎来到NLP时事简报!第三期涵盖了诸如改进会话代理、特定语言BERT模型、免费数据集、深度学习库等主题。1、Publications ????1.1 Language-specific BERT models我已经记不清现在有多少种特定语言的BERT模型了,这里有一些最新的版本:荷兰语Dutch BERT(RobBERT| BERTje)德语German BERT葡萄牙语Portugu...原创 2020-02-15 16:35:49 · 3858 阅读 · 0 评论 -
Transformers Assemble(PART II)
写在前面 Set Transformer from OX,ICML2019[x]Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksNLP的输入基本都是有顺序性的,但是还有很多机器学习任务的输入都是顺序无关的set-structure data,比如多示例学习(mul...原创 2020-02-15 10:23:28 · 3312 阅读 · 0 评论 -
多角度理解CNN
博客主题图像FilterFilter作用图像后结果如何得到?等式角度神经网络角度矩阵乘法角度上图的矩阵可以看成是传统神经网络中的权重矩阵,但是有两点不同:灰色显示的0是不可训练的,这意味着它们在整个优化过程中保持为零;有些权重是相等的,虽然它们是可训练的(即可改变的),但它们必须保持相等。这些被称为“共享权重”。Dense神经网络角度这一角度可以更好理...原创 2020-02-14 10:40:58 · 3254 阅读 · 0 评论 -
Transformers Assemble(PART I )
写在前面 Bi-BloSAN from UTS,ICLR2018 Universal Transformers from UVA&Google,ICLR20191、BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING这篇论文首先分析了目前几大类特征抽取器CNN、RN...原创 2020-02-07 17:09:20 · 2981 阅读 · 0 评论 -
Dive into BERT:语言模型与知识
写在前面最近在研究的主要是跟知识相关的一些东西,包括回顾了一些知识表示模型呀,一些大规模的语言模型如何锦上添花融入外部知识的方法呀,如果你感兴趣的话可以直接去之前几篇博客里面瞄一眼。今天就以知识为切入点来更深入地剖析一下最近比较火的预训练模型。1、Language Models as Knowledge Bases?(EMNLP2019)语言模型可以当做是一种知识库吗?知识库是一种格式...原创 2019-11-16 15:17:20 · 13097 阅读 · 0 评论 -
当BERT遇上知识图谱
写在前面上篇博客理了一下一些知识表示学习模型,那今天我们来看目前最流行的BERT模型加上外部知识这个buff后到底会有怎么样的发展。其实这个思路在之前就有出现过比较有意思有效的工作,像百度的ERNIE和ERNIE2.0 以及清华的ERNIE,这些工作的介绍可以参考站在BERT肩膀上的NLP新秀们(PART I)。KG-BERT: BERT for Knowledge Graph Complet...原创 2019-11-06 21:07:39 · 17076 阅读 · 0 评论 -
超详细中文预训练模型ERNIE使用指南
写在前面啊实习以后因为各种事就好久没写过博客了。最近在工作上处理的都是中文语料,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对之后还是觉得百度的ERNIE效果会比较好,而且使用十分方便,所以今天就详细地记录一下。希望大家也都能在自己的项目上取得进展~1、A Glance at ERNIE关于ERNIE模型本身的话这篇不会做...原创 2019-07-31 22:13:03 · 29074 阅读 · 3 评论 -
Nvidia League Player:来呀比到天荒地老
写在前面最近的机器学习圈子,NLP社区无疑是最热闹的,各种“碾压BERT”,“横扫排行榜”新闻满天飞,确实人家媒体就是靠点击量吃饭的嘛所以也不要太过苛刻。即便如此,也需要我们自己有独立思考的能力,虽然是被标题吸引进来的,但是对于每个模型我们都需要静下来好好思考。之前博客是有解析了一些BERT的后起之秀,比如ERNIE-Baidu,ERNIE-THU,XLMs,MASS, UNLIM等等,这篇博客...原创 2019-08-11 15:10:54 · 12702 阅读 · 1 评论 -
Memory Networks论文串烧
写在前面Memory Networks经典论文阅读笔记,会包括Vanilla Memory Networks及其各种变形以及在NLP领域的应用。主要涉及一下论文:Memory Networks (Facebook AI Research/2015)1、Memory NetworksMemory Networks提出的最大卖点就是具备长期记忆(long-term memory),虽然当时...原创 2019-05-24 14:43:23 · 1707 阅读 · 0 评论 -
NLP大杀器BERT模型解读
写在前面谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议。作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这样的模型在不同的任务均得到了目前为止最好的结果,并且有一些结果相比此前的最佳成绩得到了幅度不小的提升。但是如此好的效果并不是随便突然的一个凭空出现的想法导致的,而是作者结合NLP最近几年表现优异...原创 2018-11-12 19:41:29 · 7489 阅读 · 4 评论 -
站在BERT肩膀上的NLP新秀们(PART I)
写在前面去年NLP领域最火的莫过于BERT了,得益于数据规模和计算力的提升,BERT在大会规模语料上预训练(Masked Language Model + Next Sentence Prediction)之后可以很好地从训练语料中捕获丰富的语义信息,对各项任务疯狂屠榜。我们在对BERT进行微调之后可以很好地适用到自己的任务上,具体可以参考之前一篇BERT简单应用:BERT模型实战之多文本分类...原创 2019-06-03 22:17:26 · 15339 阅读 · 3 评论 -
站在BERT肩膀上的NLP新秀们(PART III)
MT-DNN from Microsoft MT-DNN-2 from Microsoft GPT-2 from OpenAI VideoBERT from Google原创 2019-06-13 10:59:56 · 12296 阅读 · 0 评论 -
【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)
写在前面Ranking-Based Automatic Seed Selection and Noise Reduction for Weakly Supervised Relation Extraction(Phi/ACL2018)原创 2019-05-29 12:52:15 · 3024 阅读 · 3 评论 -
【论文复现】Character-level Convolutional Networks for Text Classification
写在前面今天讨论的论文依然是文本分类主题的。Character-level Convolutional Networks for Text Classification这篇论文是在2016年4月份发表的,在此之前,深度学习自然语言处理问题的处理思路基本都是基于单词或者短语(n-grams)。这篇文章作者受到 ImagineNet卷积神经网络处理图片从底层像素开始的思路影响,开始试图从字符角度出...原创 2019-01-04 20:29:51 · 1462 阅读 · 1 评论 -
【论文复现】Hierarchical Attention Networks for Document Classification
写在前面最近在整理文本分类方面比较经典的模型,看到了“Hierarchical Attention Networks for Document Classification”这篇论文,还是蛮有意思的,作者的想法也非常有特色,然后就去网上找了一些参考资料博客辅助理解,整理一下思路记下来。论文概述近年来,在NLP领域,好像最流行的就是RNN、LSTM、GRU、Attention等及其变体的...原创 2018-12-22 21:02:13 · 2873 阅读 · 8 评论 -
梯度下降优化算法总结
写在前面梯度下降(Gradient descent)算法可以说是迄今最流行的机器学习领域的优化算法。并且,基本上每一个深度学习库都包括了梯度下降算法的实现,比如Lasagne、cafe、keras等。关于梯度优化的三种分类在机器学习中常用的优化方法这篇博客中已经介绍过,按照每次更新参数使用的数据量可以分为Batch gradient descent、Stochastic gradient de...原创 2019-01-04 11:33:29 · 2051 阅读 · 0 评论 -
【论文复现】使用RCNN进行文本分类
写在前面昨天下午去面试了微信模式识别中心的NLP,被面试官问到自闭,菜是原罪...继续之前的文本分类任务系列,前面介绍了几种:CNN,RNN,fasttext。今天的主角是RCNN对了,顺带可以了解一下RNN与CNN在NLP中的区别于共同点,这个问题在昨天面试中也被问到了。这也是今天这篇论文提出的原因之一吧。(虽然我觉得文中关于CNN的部分只是用了一个max-pooling,本质上并不...原创 2018-11-26 12:56:31 · 5994 阅读 · 6 评论 -
【论文复现】使用RNN进行文本分类
写在前面这是文本分类任务的第二个系列----基于RNN的文本分类实现(Text RNN)复现的论文是2016年复旦大学IJCAI 上的发表的关于循环神经网络在多任务文本分类上的应用:Recurrent Neural Network for Text Classification with Multi-Task Learning下面提及的代码可以在github中查看:https://gi...原创 2018-11-18 15:37:43 · 5396 阅读 · 2 评论 -
【论文复现】使用CNN进行文本分类
写在前面不想做实验,不想看算法,不想刷Leetcode,只想躺尸,,,最近看概率图这一块看得头疼跟着大牛们的论文复现代码,然后一点一点学习吧。嗯今天要写的是关于NLP领域的一个关键问题:文本分类。相对应的论文是:Convolutional Neural Networks for Sentence Classification全部的代码github:text classifi...原创 2018-11-11 10:55:00 · 3663 阅读 · 15 评论 -
理解Attention机制原理及模型
写在前面目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。这个问题限制了模型的性能,尤其当输入序列比较长时,模型...原创 2018-08-18 11:16:22 · 23342 阅读 · 5 评论 -
机器学习&深度学习知识点总结
1.Overfitting是什么?怎么解决?overfitting就是过拟合, 其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标...原创 2018-06-09 09:31:01 · 7546 阅读 · 0 评论 -
循环神经网络RNN
写在前面在之前学的神经网络模型中,算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别,时间序列分析以及机器翻译等领域。1. RNN概述在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的。...原创 2018-06-10 17:25:55 · 10759 阅读 · 0 评论 -
卷积神经网络CNN算法原理
写在前面在上一篇【Deep learning】卷积神经网络CNN结构中我们简单地介绍了CNN的结构。接下来我们看看这种结构的CNN模型是怎么运行的,包括CNN的前向传播和反向传播算法。1.CNN前向传播算法(1)输入层前向传播到卷积层输入层的前向传播是CNN前向传播算法的第一步。一般输入层对应的都是卷积层,因此我们标题是输入层前向传播到卷积层。我们这里还是以图像识别为例。先考虑...原创 2018-06-09 20:55:36 · 9759 阅读 · 0 评论 -
卷积神经网络CNN结构
写在前面今天不想写。1.卷积神经网络(CNN)简介直接贴出这张CNN最经典的图。从图中也可以出,其实CNN和传统的深度神经网络相差不多,唯一的区别就在于神经网络中相邻两层的连接方式。那么,问题来了,为什么CNN要选择不一样的连接方式呢(神经网络中使用的为全连接方式,即相邻两层之间所有神经元都有连接)???首先是数据数量级问题,我们知道在处理图像是输入为所选图像的像素矩阵,...原创 2018-06-09 16:44:47 · 3146 阅读 · 0 评论 -
【论文笔记】命名实体识别论文
写在前面其实实体识别这块看了挺久了的,今天就来好好聊一聊它。实体识别(Name Entity Recognition)是属于NLP任务中的序列标注问题:给定一个输入句子,要求为句子中的每一个token做实体标注(如人名、组织/机构、地名、日期等等)。NER算法回顾明白了NER任务的目的,那我们就来看看具体是怎么实现的。到目前为止,可以大致分为基于规则、基于传统机器学习方法和基于深度学习方法...原创 2019-04-10 11:27:12 · 8367 阅读 · 0 评论 -
深度学习中的Normalization总结
写在前面在查batch normalization和layer normalization的区别的时候看到的文章,总结得非常好。怕以后找不到忘记看,先在这里存档一下。深度学习中的Normalization模型...原创 2019-04-11 20:12:50 · 566 阅读 · 0 评论 -
【论文】基于特定实体的文本情感分类总结(PART I)
0. 写在前面最近在看一个比赛:2019 搜狐校园算法大赛,赛题说的是给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。这里说的是实体识别,马上想到的就是利用分步走解决:先去对文章进行实体识别,然后对提取出来的实体进行情感分类。但是后来一想这样两步的话会使得最终结果的错误率叠加,也...原创 2019-05-03 20:50:29 · 4230 阅读 · 3 评论 -
站在BERT肩膀上的NLP新秀们(PART II)
写在前面在前一篇站在BERT肩膀上的NLP新秀们(PART I)介绍了两个都叫ERNIE的模型,思路也挺相似的,都是给bert模型增加外部知识信息,使其能更好地“感知“真实世界。今天我们来看看另外几个有意思的BERT新秀: XLMs from Facebook MASS from Microsoft UNILM from Microsoft1、Cross-lingual Langua...原创 2019-06-05 21:45:01 · 12574 阅读 · 2 评论 -
【论文】基于特定实体的文本情感分类总结(PART III)
0. 写在前面一些ABSA的论文1. Targeted Aspect-Based Sentiment Analysis via Embedding Commonsense Knowledge into an Attentive LSTM...原创 2019-05-28 10:29:13 · 3100 阅读 · 13 评论 -
BERT源码分析PART III
写在前面继续之前没有介绍完的Pre-training部分,在上一篇中我们已经完成了对输入数据的处理,接下来看看BERT是怎么完成Masked LM和Next Sentence Prediction两个任务的训练的。 run_pretraining任务#1:Masked LMget_masked_lm_output函数用于计算任务#1的训练loss。输入为BertModel的最后一层se...原创 2019-05-18 13:20:29 · 13416 阅读 · 1 评论 -
BERT源码分析PART II
写在前面BERT的使用可以分为两个步骤:pre-training和fine-tuning。pre-training的话可以很好地适用于自己特定的任务,但是训练成本很高(four days on 4 to 16 Cloud TPUs),对于大对数从业者而言不太好实现从零开始(from scratch)。不过Google已经发布了各种预训练好的模型可供选择,只需要进行对特定任务的Fine-tunin...原创 2019-05-17 15:32:55 · 14543 阅读 · 1 评论