![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
sliderSun
本人知乎ID:sliderSun
展开
-
Compact Multi-Head Self-Attention 低秩因子分解
paper:https://arxiv.org/pdf/1912.00835.pdfProposed Model首先对文档(评论或新闻文章)进行标记,然后通过查找将其转换为嵌入到预先训练好的嵌入矩阵中。每个标记的嵌入通过bi-GRU语句编码器进行编码,以获得该语句中每个单词的上下文注释。LAMA的注意机制通过计算单词级上下文向量对这些单词的隐藏表示的对齐分数,从而获得这些单词上的多个注意分...原创 2020-01-21 16:29:17 · 724 阅读 · 0 评论 -
ALBERT 中文实战之文本相似度
ALBERT是一个比BERT要轻量,效果更好的模型,本篇实践介绍如何用ALBERT计算两个文本的相似度。ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段,显著减少了模型的参数量的同时,基本没有损失模型的性能。笔者在下面的文章中详细介绍了ALBERT的理论,感兴趣的同学可以戳进去了解:《解读ALBERT》。github地址使用孪生ALBERT网络生成句子的嵌入表示:P...原创 2020-01-12 22:40:48 · 4050 阅读 · 1 评论 -
NLP 2019 HightLights
请移步到原文原创 2020-01-12 17:23:59 · 233 阅读 · 0 评论 -
显式稀疏Transformer
论文地址:EXPLICIT SPARSE TRANSFORMER: CONCENTRATED ATTENTION THROUGH EXPLICIT SELECTION引言图1:模型中自我注意的说明。橙色条表示我们提出的模型的注意分值,蓝色条表示香草变压器的注意分值。橙色线表示目标单词“tim”与序列中选择的top-k位置之间的注意。在vanilla Transformer的注意力...原创 2020-01-12 16:46:22 · 1981 阅读 · 0 评论 -
Stacked DeBERT
论文地址:Stacked DeBERT: All Attention in Incomplete Data for Text Classification项目地址:https://github.com/gcunhase/StackedDeBERT我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案,用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示,该模型的结构为嵌...原创 2020-01-03 16:13:37 · 530 阅读 · 0 评论 -
BERT用于序列到序列的多标签文本分类
BERT FOR SEQUENCE-TO-SEQUENCE MULTI-LABEL TEXT CLASSIFICATION引言我们的主要贡献如下:1. 我们将BERT的结果作为编码器呈现在MLTC数据集的序列到序列框架中,具有或不具有类上的给定层次树结构。2. 介绍并实验验证了一种新的MLTC混合模型。3.我们微调vanilla BERT模型来执行多标签文本分类。据我们所知,这...原创 2019-12-31 21:30:43 · 3206 阅读 · 3 评论 -
Group Transformer:实现轻量级的字符级语言模型
GROUP-TRANSFORMER: TOWARDS A LIGHTWEIGHT CHARACTER-LEVEL LANGUAGE MODELINTRODUCTION本文介绍了一种用于字符级语言建模的轻量级转换器。我们的方法是一种因式分解方法,它使用分组线性操作来分离transformer架构中的标准线性层,并在线性转换之间进行稀疏连接。该模型受到群卷积方法的启发,被称为Group Tra...原创 2019-12-31 20:56:47 · 1434 阅读 · 0 评论 -
解读Reformer
论文地址:https://openreview.net/forum?id=rkgNKkHtvB 代码:https://github.com/google/trax/blob/master/trax/models/research/reformer.py介绍Transformer 架构被广泛用于自然语言处理中,并且在许多任务中实现了 sota。为了获得这些结果,研究者不得不开始训练更大的 T...原创 2019-12-31 16:08:25 · 7821 阅读 · 2 评论 -
K-BERT详解
论文地址:https://arxiv.org/abs/1909.07606v1项目地址:https://github.com/autoliuweijie/K-BERT摘要预训练的语言表示模型(如BERT)从大型语料库捕获一般的语言表示,但缺乏领域特定的知识。在阅读领域文本时,专家会利用相关知识进行推理。为了使机器能够实现这一功能,我们提出了一种基于知识图的支持知识的语言表示模型(K...翻译 2019-12-31 14:13:18 · 11043 阅读 · 2 评论 -
利用胶囊网络提高多头注意力
Paper:Improving Multi-Head Attention with Capsule Networks通过将输入胶囊乘以表示部分和整体之间的视点不变关系的学习转换矩阵来计算投票:然后我们计算和更新输出胶囊v,投票,以及它们之间的分配概率c通过特定的路由过程迭代以确保输入发送给一个适当的输出胶囊:最后,将输出胶囊v串联在一起,送入前馈网络(FFN),该网络由两个...原创 2019-12-18 16:02:36 · 1250 阅读 · 2 评论 -
解读 IASM《Interactive Attention for Semantic Text Matching》
互动关注本地互动我们模型的输入是一对源文本和目标文本(q,d)。 源文本q由m的序列组成单词(q1,q2,...,qm)和目标文本d由a组成n个单词的序列(d1,d2,...,dn)。 预训练词每个单词qi∈q和dj∈d的嵌入可以通过在诸如知识之类的外部资源上进行表征学习。 因此,我们可以获得源文本Q = {q1,q2,...,qm}的表示形式和目标文本D = {d1,d2,...,dn}的表...原创 2019-11-15 16:31:18 · 427 阅读 · 0 评论 -
Deep Learning For NLP BestPrac
转载博客地址:http://ruder.io/deep-learning-nlp-best-practices/index.html Update July 26, 2017: For additional context, the HackerNews discussion about this post.Table of contents:IntroductionBes...转载 2018-10-18 15:13:23 · 268 阅读 · 0 评论 -
基于BERT的历史答案编码实现多轮会话问答
论文地址代码地址原创 2019-07-15 01:06:47 · 822 阅读 · 0 评论 -
Transformer五部曲
Transformer:没错,你只需要注意力机制首先先说说自己对 Transformer 理解,我认为它最大的改进有如下几点:提出用注意力机制来直接学习源语言内部关系和目标语言内部关系,而不是像之前用 RNN 来学; 对存在多种不同关系的假设,而提出多头 (Multi-head) 注意力机制,有点类似于 CNN 中多通道的概念; 对词语的位置,用了不同频率的 sin 和 cos 函...原创 2019-05-13 23:06:43 · 9267 阅读 · 3 评论 -
深度学习中的Normalization模型(附实例&公式)
本文以非常宏大和透彻的视角分析了深度学习中的多种Normalization模型,从一个新的数学视角分析了BN算法为什么有效。[ 导读 ]不管是传统机器学习,还是当前火热的深度学习,Normalization技术都是能够提升算法性能的大杀器。本文以非常宏大和透彻的视角分析了深度学习中的多种Normalization模型,包括大家熟悉的Batch Normalization (BN)和可能不那...转载 2019-08-10 12:40:29 · 1654 阅读 · 0 评论 -
一文带你了解深度学习中的各种卷积(上)
深度学习中不同的卷积类型,包括:2D/3D/1*1/Ttransposed/Dilated/SpatiallySeparable/Depthwise Separable/Flattened/Grouped/Shuffled Grouped ConvolutionConvolution VS Cross-correlation卷积是一项在信号处理、视觉处理或者其他工程/科学领域中应...转载 2019-08-10 13:15:38 · 1087 阅读 · 0 评论 -
一文带你了解深度学习中的各种卷积(下)
Transposed Convolution在许多应用和网络架构中,我们经常想要做逆向的卷积,即要进行上采样。一些示例包括了图像高分辨率,需要将低维特征映射到高维空间,比如自动编码器或者语义分割。(对于语义分割,首先用编码器提取特征图,然后在解码器中恢复原始图像大小,这样来实现分类原始图像的每个像素。)更直接的,可以通过应用插值方案或手动创建规则来实现上采样。现在的一些结构,像神经网络,倾...转载 2019-08-10 13:34:35 · 544 阅读 · 0 评论 -
胶囊网络以及在NLP的应用
Capsule Networks:A Survey基于动态路由的胶囊网络在文本分类上的探索:github地址Investigating Capsule Networks with Dynamic Routing for Text Classification卷积神经网络取得了很大的成功,也很受欢迎。但是,它也不是适合所有的任务,架构上的一些缺陷,导致它并不能很好的完成一些任务。CN...原创 2019-08-10 15:19:24 · 4086 阅读 · 0 评论 -
RoBERTa、ERNIE2、BERT-wwm-ext和SpanBERT
对于NLP来说,上个月(7月)是一个摩肩接踵的时刻,几大预训练模型轮番PK,群雄逐鹿中原。从7月26号的RoBERTa到7月29号的ERNIE2,再到7月30号的BERT-wwm-ext,再到7月31号的SpanBERT,其中RoBERTa引起大家的热论。先上一张有意思的图:(来至知乎作者Andy Yang)RoBERTa从模型上来说,RoBERTa基本没有什么太大创新,主要是...原创 2019-08-11 22:45:03 · 11884 阅读 · 1 评论 -
XLNet代码详解之预训练
XLNet源码地址:https://github.com/zihangdai/xlnetXLNET原理详解:https://blog.csdn.net/weixin_37947156/article/details/93035607XLNET中文预训练:https://github.com/ymcui/Chinese-PreTrained-XLNet原作地址:http://fancye...原创 2019-09-02 19:12:01 · 6574 阅读 · 4 评论 -
XLNet原理解读
论文地址:https://arxiv.org/pdf/1906.08237.pdf 预训练模型及代码地址:https://github.com/zihangdai/xlnet 论文原理:(张俊林老师--讲的比较透彻)XLNet:运行机制及和Bert的异同比较https://zhuanlan.zhihu.com/p/70257427 摘要作者表示,BERT ...原创 2019-06-20 14:58:43 · 39112 阅读 · 20 评论 -
SELU 激活函数《the scaled exponential linear units》
B站视频地址:【戳我】课件地址:【戳我】SELU论文地址:【Self-Normalizing Neural Networks】.1. ReLu 变体Leaky ReLUParametric ReLUExponential Linear2 SELU形式其中超参α和λ的值是证明得到的(而非训练学习得到):α = 1.6732632...原创 2019-09-18 22:25:59 · 1219 阅读 · 0 评论 -
详解深度学习中的Normalization,BN/LN/WN
转载至https://zhuanlan.zhihu.com/p/33173246原创 2019-09-18 22:47:17 · 633 阅读 · 0 评论 -
解读ALBERT
论文地址:https://openreview.net/pdf?id=H1eA7AEtvS中文预训练ALBERT模型:https://github.com/brightmart/albert_zh曾经,预训练是大模型(玩家)的天下语言表征学习领域的这些进展表明,大模型对于实现 SOTA 性能表现极其重要。预训练大模型,并在实际应用中将它们提炼成更小的模型已经成为一种常见的做法。考虑...原创 2019-09-27 17:26:31 · 25886 阅读 · 0 评论 -
参数少一半,效果还更好,天津大学和微软提出Transformer压缩模型
由于在自然语言处理任务中的突出表现,基于 Transformer 的预训练语言模型是 NLP 领域的研究重点。考虑到模型参数量过大,导致其训练困难,部署不方便,研究人员一直在探究压缩模型的方法。近日,天津大学联合微软亚洲研究院提出了 Transformer 的压缩方法,不仅减少了近一半的参数量,模型在语言建模和神经机器翻译任务的表现也有所提升。这一研究可帮助在一些算力资源较小的环境中部署预训...原创 2019-07-17 22:07:17 · 842 阅读 · 0 评论 -
MixNet: Mixed Depthwise Convolutional Kernels
arXiv:https://arxiv.org/abs/1907.09595Tensorflow版本:https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnetPytorch版本:https://github.com/romulus0914/MixNet-PytorchabstractMi...翻译 2019-08-02 11:32:58 · 1240 阅读 · 1 评论 -
深度学习-12-trick
1:优化器。机器学习训练的目的在于更新参数,优化目标函数,常见优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。其中SGD和Adam优化器是最为常用的两种优化器,SGD根据每个batch的数据计算一次局部的估计,最小化代价函数。学习速率决定了每次步进的大小,因此我们需要选择一个合适的学习速率进行调优。学习速率太大会导致不收敛,速率太小收敛速度慢。因此SGD通常训...原创 2018-10-19 10:12:55 · 223 阅读 · 0 评论 -
深度学习优化器总结
Batch gradient descent每次更新我们需要计算整个数据集的梯度,因此使用批量梯度下降进行优化时,计算速度很慢,而且对于不适合内存计算的数据将会非常棘手。批量梯度下降算法不允许我们实时更新模型。但是批量梯度下降算法能确保收敛到凸平面的全局最优和非凸平面的局部最优。SGD(Stochastic gradient descent)随机梯度下降算法参...翻译 2018-10-19 10:13:15 · 646 阅读 · 0 评论 -
java《部署tensorflow训练的模型》
最近深度学习算法被广泛研究和应用,而tensorflow则是被应用最为广泛的工具。tensorflow训练的模型被应用在线上时,主要有3种方式(本文主要讨论java方向的应用):1:java代码重写预测代码(应用效率太低)2:tensorflow serving加载tensorflow模型,通过rpc服务调用,改种方式耗时较长,不满足线上要求(之前测试的结果)3:tens...转载 2018-10-19 10:11:51 · 2280 阅读 · 0 评论 -
深度学习trick集合
调参技巧数据增强预处理1️⃣zero-center[9]将数据中心化初始化1️⃣Xavier initialization[7]方法适用[9]于普通激活函数(tanh,sigmoid):scale = np.sqrt(3/n)2️⃣He initialization[8]方法适用[9]于ReLU:scale = np.sqrt(6/n)3️⃣Batch normalization[10]4️...转载 2018-10-18 15:24:38 · 830 阅读 · 0 评论 -
Mask矩阵理解
是什么mask矩阵是什么?是一个由0和1组成的矩阵。一个例子是,在自然语言处理(NLP)中,句子的长度是不等长的,但因为我们经常将句子组成mini-batch用以训练,因此那些长度较短的句子都会在句尾进行填充0,也即padding的操作。一个mask矩阵即用以指示哪些是真正的数据,哪些是padding。如:图片来源:Theano:LSTM源码解析其中mask矩阵中1代表真实数据;0代表padd...转载 2018-10-18 15:21:39 · 10732 阅读 · 2 评论 -
如何理解bias&variance
如何理解bias&variancebias是function space中心离optimal model的差距,variance是某次实验所得模型离function space中心的距离。比如说,简单地模型的function space小,随机性小,因此variance小,但也因为function space小,表示能力有限,因此bias大。如图:该图中蓝色圈代表模型所能表达的范围。...翻译 2018-10-18 15:16:50 · 656 阅读 · 0 评论 -
CNN文本分类
做法基本上目前较为浅层的CNN文本分类的做法都是如下图:将词向量堆积成为二维的矩阵,通过CNN的卷积单元对矩阵进行卷积处理,同时使用pooling(通常是1max-pooling)操作,将不等长的卷积结果变为等长,对不同的卷积单元的结果进行拼接后生成单个向量,最后再通过线性层转化成类别概率分布。另一张图也说明了该流程。建议与指导超参及其对结果的影响接下来的内容参考了论文A Sensiti...转载 2018-10-18 15:07:18 · 1684 阅读 · 0 评论 -
ELMo词向量用于中文
<p>10.10更新:ELMo已经由哈工大组用PyTorch重写了,并且提供了中文的预训练好的language model,可以直接使用。</p>ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实...转载 2018-10-18 14:56:24 · 2556 阅读 · 2 评论 -
ELMo词向量用于中文
ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实验可得,使用了Elmo词向量之后,许多NLP任务都有了大幅的提高。论文:Deep contextualized word representationsAllenNLP一共releas...转载 2018-10-18 14:40:07 · 8831 阅读 · 20 评论 -
Elmo词向量中文训练过程杂记
转载自“素质云博客”, https://blog.csdn.net/sinat_26917383/article/details/81913790 1 elmo是什么?ELMo的 特点:2 Elmo训练有哪些好项目?有训练过程的项目预训练模型...转载 2018-10-18 14:32:28 · 3901 阅读 · 2 评论 -
词向量技术-从word2vec到Glove到ELMo
词向量word2vec VS ELMo本文关键词:NLP、词向量、word2vec、ELMo、语言模型0. 前言"词和句子的嵌入已成为所有基于深度学习的自然语言处理(NLP)系统的重要组成部分,它们在固定长度的稠密向量中编码单词和句子,以大幅度提高神经网络处理文本数据的能力。"大趋势是对通用嵌入的追求:在大型语料库上预训练好的嵌...转载 2018-10-18 14:29:06 · 3358 阅读 · 1 评论 -
基于Attention机制的上下文分类算法在问答系统中的应用
文本分类是自然语言处理中的基础算法,在对话系统的应用中,可利用文本分类算法来判断用户的咨询意图。然而单个问题并不能很好捕获用户的意图,通常需要结合用户上文的咨询结合当句才能更好的判断用户的意图。这里就需要我们建立一个基于上下文的分类模型来结合上文信息判断用户的最终意图。这里常用的方式大概分为两个方式:      &nbs...转载 2018-10-19 10:12:25 · 1115 阅读 · 0 评论 -
Inner Attention模型在深度问答系统中的应用
Attention机制在时序模型中的应用,已经被证明能够提升模型的性能。本文参考《Attentive pooling Networks》,该论文以时序模型输出状态设计Attention为基线(QA_LSTM_ATTENTION),提出了一种同时对问题和答案进行特征加权的Attention设计方案。本文实现了论文中基于LSTM网络结构的Attentio...转载 2018-10-19 10:12:10 · 448 阅读 · 0 评论 -
Sharing Attention Weights for Fast Transformer
出自 2019 年的《Sharing Attention Weights for Fast Transformer》。SAN 不需要改动网络结构,即使是和带 cache 的强基线对比,仍然可以获得 30% 的加速比。同样是从 decoder 端的 softmax 入手,作者进行了简单粗暴的“权重共享”。在 self-attention 层,直接用上一层的 softmax 结构;在 source-...原创 2019-08-06 19:06:58 · 780 阅读 · 0 评论