sliderSun-CSDN博客

原创解读ALBERT

论文地址：https://openreview.net/pdf?id=H1eA7AEtvS中文预训练ALBERT模型：https://github.com/brightmart/albert_zh曾经，预训练是大模型（玩家）的天下语言表征学习领域的这些进展表明，大模型对于实现 SOTA 性能表现极其重要。预训练大模型，并在实际应用中将它们提炼成更小的模型已经成为一种常见的做法。考虑...

2019-09-27 17:26:31 25984

原创 RoBERTa、ERNIE2、BERT-wwm-ext和SpanBERT

对于NLP来说，上个月（7月）是一个摩肩接踵的时刻，几大预训练模型轮番PK，群雄逐鹿中原。从7月26号的RoBERTa到7月29号的ERNIE2，再到7月30号的BERT-wwm-ext，再到7月31号的SpanBERT，其中RoBERTa引起大家的热论。先上一张有意思的图：（来至知乎作者Andy Yang）RoBERTa从模型上来说，RoBERTa基本没有什么太大创新，主要是...

2019-08-11 22:45:03 11956 1

原创 NLP模型集锦----pynlp

github 地址目录1、Introduction2、Our Model2.1 CTR2.1.1 Models List2.1.2 Convolutional Click Prediction Model2.1.2Factorization-supported Neural Network2.1.3Product-based Neural Network2...

2019-07-13 00:19:10 2858

原创 BERT源码分析

BERT源码分析PART IBERT源码分析PART IIBERT源码分析PART III

2019-07-06 19:08:50 3706 1

原创 XLNet原理解读

论文地址：https://arxiv.org/pdf/1906.08237.pdf 预训练模型及代码地址：https://github.com/zihangdai/xlnet 论文原理：（张俊林老师--讲的比较透彻）XLNet:运行机制及和Bert的异同比较https://zhuanlan.zhihu.com/p/70257427 摘要作者表示，BERT ...

2019-06-20 14:58:43 39268 20

原创 Transformer五部曲

Transformer：没错，你只需要注意力机制首先先说说自己对 Transformer 理解，我认为它最大的改进有如下几点：提出用注意力机制来直接学习源语言内部关系和目标语言内部关系，而不是像之前用 RNN 来学；对存在多种不同关系的假设，而提出多头 (Multi-head) 注意力机制，有点类似于 CNN 中多通道的概念；对词语的位置，用了不同频率的 sin 和 cos 函...

2019-05-13 23:06:43 9339 3

原创 Joint Model (Intent+Slot)

0、BERT for Joint Intent Classification and Slot Filling本文《BERT for Joint Intent Classification and Slot Filling》提出了使用BERT进行文本意图分类和槽位填充的任务，其结果达到了目前最好的成绩。论文地址github 地址引言意图识别/意图分类(Intent Cl...

2018-12-27 23:12:52 7735 2

原创 BERT中文实战（文本相似度）

个人 github BERT本质上是一个两段式的NLP模型。第一个阶段叫做：Pre-training，跟WordEmbedding类似，利用现有无标记的语料训练一个语言模型。第二个阶段叫做：Fine-tuning，利用预训练好的语言模型，完成具体的NLP下游任务。Google已经投入了大规模的语料和昂贵的机器帮我们完成了Pre-training过程附上中文预训练bert链接：...

2018-12-07 16:29:10 85508 68

原创 LADABERT：混合模型压缩的轻量级自适应BERT

https://zhuanlan.zhihu.com/p/129298567

2020-04-12 23:05:21 688

转载如何看待瘦身成功版BERT——ALBERT？

https://www.zhihu.com/question/347898375/answer/863537122

2020-04-08 17:33:00 664

转载如何评价 BERT 模型？

https://www.zhihu.com/question/298203515/answer/516170825

2020-04-08 17:31:52 1010

转载如何评价NLP算法ELECTRA的表现？

https://www.zhihu.com/question/354070608

2020-04-08 17:29:25 422

原创解读FastBERT《a Self-distilling BERT with Adaptive Inference Time》

https://arxiv.org/pdf/2004.02178.pdfThe code is publicly available at https:// github.com/autoliuweijie/FastBERT.（作者目前还未放）FastBERT的推理过程，每个样本执行的层数根据其复杂性而变化。这说明了一个样本自适应机制。以一批输入(批大小= 4)为例，Transfo...

2020-04-07 14:58:33 1611 2

原创 TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding

https://arxiv.org/pdf/2003.07000.pdf

2020-04-02 15:08:49 535

翻译 Transformer++

我们使用如图[1]所示的编码器-解码器架构来对一个序列进行序列建模，该架构遵循Transformer[15]中提出的架构。我们提出了一种计算注意函数的新方法，同时学习了新的多头和传统的多头。对于给定的H(多个头的总数)，我们在H/2 heads中使用自我注意来捕获全局依赖关系，并在H/2 heads中使用基于卷积的...

2020-03-26 16:49:34 1099 1

原创 Compact Multi-Head Self-Attention 低秩因子分解

paper：https://arxiv.org/pdf/1912.00835.pdfProposed Model首先对文档(评论或新闻文章)进行标记，然后通过查找将其转换为嵌入到预先训练好的嵌入矩阵中。每个标记的嵌入通过bi-GRU语句编码器进行编码，以获得该语句中每个单词的上下文注释。LAMA的注意机制通过计算单词级上下文向量对这些单词的隐藏表示的对齐分数，从而获得这些单词上的多个注意分...

2020-01-21 16:29:17 757

原创 FGN: Fusion Glyph Network for Chinese Named Entity Recognition

结合中文字形处理NLP任务的并不多推荐一篇：Glyce2.0，中文字形增强BERT表征能力paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdfgithub:https://github.com/AidenHuen/FGN-NERModel在本节中，我们将详细介绍用于NER任务的FGN。如图1所示，FGN可以分为三个...

2020-01-19 14:22:36 1583 1

原创 ALBERT 中文实战之文本相似度

ALBERT是一个比BERT要轻量，效果更好的模型，本篇实践介绍如何用ALBERT计算两个文本的相似度。ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段，显著减少了模型的参数量的同时，基本没有损失模型的性能。笔者在下面的文章中详细介绍了ALBERT的理论，感兴趣的同学可以戳进去了解：《解读ALBERT》。github地址使用孪生ALBERT网络生成句子的嵌入表示：P...

2020-01-12 22:40:48 4094 1

原创 NLP 2019 HightLights

请移步到原文

2020-01-12 17:23:59 243

翻译 Hugging Face推出了分词器

原文链接：https://medium.com/dair-ai/hugging-face-introduces-tokenizers-d792482db360去年对于自然语言处理（NLP）来说是巨大的。就改进而言，现在可以通过使用优化的库和高性能硬件来更快地实现神经网络。但是，基于深度学习的现代NLP管道中的瓶颈之一是tokenization，尤其是通用性强且独立于框架的实现。为了提供对现...

2020-01-12 17:01:30 1921

原创显式稀疏Transformer

论文地址：EXPLICIT SPARSE TRANSFORMER: CONCENTRATED ATTENTION THROUGH EXPLICIT SELECTION引言图1:模型中自我注意的说明。橙色条表示我们提出的模型的注意分值，蓝色条表示香草变压器的注意分值。橙色线表示目标单词“tim”与序列中选择的top-k位置之间的注意。在vanilla Transformer的注意力...

2020-01-12 16:46:22 2039

原创 Stacked DeBERT

论文地址：Stacked DeBERT: All Attention in Incomplete Data for Text Classification项目地址：https://github.com/gcunhase/StackedDeBERT我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案，用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示，该模型的结构为嵌...

2020-01-03 16:13:37 556

原创 BERT用于序列到序列的多标签文本分类

BERT FOR SEQUENCE-TO-SEQUENCE MULTI-LABEL TEXT CLASSIFICATION引言我们的主要贡献如下:1. 我们将BERT的结果作为编码器呈现在MLTC数据集的序列到序列框架中，具有或不具有类上的给定层次树结构。2. 介绍并实验验证了一种新的MLTC混合模型。3.我们微调vanilla BERT模型来执行多标签文本分类。据我们所知，这...

2019-12-31 21:30:43 3241 3

原创 Group Transformer：实现轻量级的字符级语言模型

GROUP-TRANSFORMER: TOWARDS A LIGHTWEIGHT CHARACTER-LEVEL LANGUAGE MODELINTRODUCTION本文介绍了一种用于字符级语言建模的轻量级转换器。我们的方法是一种因式分解方法，它使用分组线性操作来分离transformer架构中的标准线性层，并在线性转换之间进行稀疏连接。该模型受到群卷积方法的启发，被称为Group Tra...

2019-12-31 20:56:47 1502

原创解读Reformer

论文地址：https://openreview.net/forum?id=rkgNKkHtvB 代码：https://github.com/google/trax/blob/master/trax/models/research/reformer.py介绍Transformer 架构被广泛用于自然语言处理中，并且在许多任务中实现了 sota。为了获得这些结果，研究者不得不开始训练更大的 T...

2019-12-31 16:08:25 7902 2

翻译 K-BERT详解

论文地址：https://arxiv.org/abs/1909.07606v1项目地址：https://github.com/autoliuweijie/K-BERT摘要预训练的语言表示模型(如BERT)从大型语料库捕获一般的语言表示，但缺乏领域特定的知识。在阅读领域文本时，专家会利用相关知识进行推理。为了使机器能够实现这一功能，我们提出了一种基于知识图的支持知识的语言表示模型(K...

2019-12-31 14:13:18 11138 2

原创利用胶囊网络提高多头注意力

Paper：Improving Multi-Head Attention with Capsule Networks通过将输入胶囊乘以表示部分和整体之间的视点不变关系的学习转换矩阵来计算投票：然后我们计算和更新输出胶囊v,投票,以及它们之间的分配概率c通过特定的路由过程迭代以确保输入发送给一个适当的输出胶囊:最后，将输出胶囊v串联在一起，送入前馈网络(FFN)，该网络由两个...

2019-12-18 16:02:36 1283 2

原创 Bootstrapping NLU Models with Multi-task Learning

paper：Bootstrapping NLU Models with Multi-task Learning图1:端到端联合NLU模型的概述。合成CNN用于从字符中合成词嵌入;公路网不仅促进了信息的流动，而且使输入的非线性变换成为可能;堆叠CNN中的多个卷积层在生成上下文向量时增加了接受域;域意图和意图槽链接使信息从上游任务流到下游任务，并为下游任务创建向上游任务提供反馈的方法。...

2019-12-17 10:53:11 256

原创探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系

论文：On Layer Normalization in the Transformer Architecture 推荐说明：我们知道，在原始的Transformer中，Layer Norm在跟在Residual之后的，我们把这个称为Post-LN Transformer；而且...

2019-12-16 11:25:00 7514

原创 PPLM：使用即插即用语言模型控制文本生成

Paper：https://arxiv.org/pdf/1912.02164.pdfCode：https://github.com/uber-research/PPLM本文讨论了一种受控文本生成的替代方法，称为即插即用语言模型（PPLM），该方法在Uber AI的最新论文中得到介绍。PPLM允许用户将代表所需控制目标的一个或多个简单属性模型灵活地插入到大型无条件LM中。该方法的...

2019-12-13 17:25:58 5561

原创 SHA-RNN 之高呼 boooOOOOmmm

论文传送门：https://arxiv.org/pdf/1911.11423.pdf代码传送门：https://github.com/Smerity/sha-rnnSHA-RNN是由几个部分组成的：一个可训练的嵌入层，一层或者多层堆叠的单头注意力RNN (SHA-RNN) ，再加一个softmax分类器。其中，SHA-RNN的结构就是下图这样： ...

2019-12-13 11:13:49 824

原创解读 IASM《Interactive Attention for Semantic Text Matching》

互动关注本地互动我们模型的输入是一对源文本和目标文本（q，d）。源文本q由m的序列组成单词（q1，q2，...，qm）和目标文本d由a组成n个单词的序列（d1，d2，...，dn）。预训练词每个单词qi∈q和dj∈d的嵌入可以通过在诸如知识之类的外部资源上进行表征学习。因此，我们可以获得源文本Q = {q1，q2，...，qm}的表示形式和目标文本D = {d1，d2，...，dn}的表...

2019-11-15 16:31:18 452

原创 Sparse Transformer

https://zhuanlan.zhihu.com/p/84802318

2019-09-30 14:12:12 1065

原创详解深度学习中的Normalization，BN/LN/WN

转载至https://zhuanlan.zhihu.com/p/33173246

2019-09-18 22:47:17 638

原创 SELU 激活函数《the scaled exponential linear units》

B站视频地址：【戳我】课件地址：【戳我】SELU论文地址：【Self-Normalizing Neural Networks】.1. ReLu 变体Leaky ReLUParametric ReLUExponential Linear2 SELU形式其中超参α和λ的值是证明得到的（而非训练学习得到）：α = 1.6732632...

2019-09-18 22:25:59 1246

原创刷尽天下 -- LeetCode 46- Permutations(全排列)

题目：给定一个没有重复数字的序列，返回其所有可能的全排列。示例:输入: [1,2,3]输出:[ [1,2,3], [1,3,2], [2,1,3], [2,3,1], [3,1,2], [3,2,1]]思路：以示例输入: [1, 2, 3] 为例，如果让我们手写，要做到不重不漏，我们书写的策略可能是这样：“一位一位确定”，这样说比较笼统，具体是这样的...

2019-09-05 23:58:14 259

原创刷尽天下 -- LeetCode 34- Find First and Last Position of Element in Sorted Array(在排序数组中查找元素的第一个和最后一个位置)

原题Given an array of integers nums sorted in ascending order, find the starting and ending position of a given target value.Your algorithm’s runtime complexity must be in the order of O(log n).If ...

2019-09-05 14:02:35 122

原创刷尽天下 -- LeetCode 25-- Reverse Nodes in k-Group(K 个一组翻转链表)

题目描述：给出一个链表，每k个节点一组进行翻转，并返回翻转后的链表。k是一个正整数，它的值小于或等于链表的长度。如果节点总数不是k的整数倍，那么将最后剩余节点保持原有顺序。示例 :给定这个链表：1->2->3->4->5当k= 2 时，应当返回:2->1->4->3->5当k= 3 时，应当返回:3-&g...

2019-09-05 00:02:38 139

原创刷尽天下 -- LeetCode 23-- Merge k Sorted Lists(合并K个排序链表)

题目合并 k 个排序链表，返回合并后的排序链表。请分析和描述算法的复杂度。示例输入:[1->4->5,1->3->4,2->6]输出: 1->1->2->3->4->4->5->6解答分治法利用归并排序的思想，利用递归和分治法将链表数组划分成为越来越小的半链表数组，再对半链表数组排序，最后再...

2019-09-03 23:46:00 242

原创刷尽天下 -- LeetCode 19 -- Remove Nth Node From End of List(删除链表的倒数第N个节点)

题目如下：采用双指针的方法，其思想是通过第二个指针将删除节点找出来，然后处理节点链接，参考代码如下：class Solution: def removeNthFromEnd(self, head, n): """ :type head: ListNode :type n: int :rtype: ListNode...

2019-09-03 23:30:22 119