![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
文章平均质量分 91
NLP
尘世猫
一个会画工图的程序猿
展开
-
ALBERT详解
一、概述最近各种大体量的预训练模型层出不穷,经常是一个出来刷榜没几天,另外一个又出现了。BERT、RoBERTa、XLNET等等都是代表人物。这些“BERT”们虽然一个比一个效果好,但是他们的体量都是非常大的,懂不懂就几千万几个亿的参数量,而且训练也非常困难。新出的ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M, 效果要比BERT低1-2个点,最大的xxlarge也就200多M。可以看到在模型参数量上减少的还是非常明显的,但是在速度上似乎没有那么明显。最大的问转载 2021-03-04 11:37:45 · 1634 阅读 · 1 评论 -
XLNET详解
本文转载:https://wmathor.com/index.php/archives/1475/“干翻芝麻街”2018 年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,刷新了 11 项 NLP 任务的最优性能记录,为 NLP 领域带来了极大的惊喜。很快,BERT 就在圈内普及开来,也陆续出现了很多与它相关的新工作BERT 带来的震撼还未平息,来自卡耐基梅隆大学与谷歌大脑的研究者又提出新型预训练语言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 个任务原创 2021-03-03 20:57:01 · 531 阅读 · 1 评论 -
BERT and it‘s family
本文主要转载自:mathor‘s bloghttps://www.zhihu.com/search?type=content&q=bert%20family大名鼎鼎的芝麻街预训练语言模型的缩写大多是芝麻街的人物。这显然是起名艺术大师们的有意为之。他们甚至都可以抛弃用首字母缩写的原则去硬凑出芝麻街人名上图所示的模型(除了 Big Bird,因为没有这个模型)他们之间都有一些共同点,就是能通过一个句子的上下文来给一个词进行 Embedding,而能达到这种目的的网络架构有很多,例如 LSTM,原创 2021-03-03 11:04:46 · 251 阅读 · 0 评论 -
Bert详解
Bert简介Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding。可以看出,Bert=Encoder of Transformer。论文中提到,标准的语言模型应该是无方向的,像OPENAIGPT使用了从左往右的结构,使得self-attention只能attention到前面的内容。此外,论文中Bert使用了两种训练方式:1. MLM(Masked Language Model);2. next s原创 2021-02-23 21:43:09 · 1131 阅读 · 0 评论 -
Word2Vec详解
自然语言处理问题中,一般以词作为基本单元,例如我们想要分析 “我去过华盛顿州” 这句话的情感,一般的做法是先将这句话进行分词,变成我,去过,华盛顿州,由于神经网络无法处理词,所以我们需要将这些词通过某些办法映射成词向量。词向量是用来表示词的向量,也可被认为是词的特征向量。把词映射为实数域向量的技术也叫词嵌入(word embedding)为何不采用One-Hot编码假设词典中不同词的数量为N ,每个词可以和从 0 到 N-1 的连续整数一一对应。假设一个词的相应整数表示为i ,为了得到该词的 one-h原创 2021-02-22 20:53:52 · 1076 阅读 · 0 评论 -
Transformer 的 PyTorch 实现
本文主要介绍一下如何使用 PyTorch 复现 Transformer,实现简单的机器翻译任务。数据预处理这里我并没有用什么大型的数据集,而是手动输入了两对德语→英语的句子,还有每个字的索引也是我手动硬编码上去的,主要是为了降低代码阅读难度,我希望读者能更关注模型实现的部分import mathimport torchimport numpy as npimport torch.nn as nnimport torch.optim as optimimport torch.utils.dat转载 2021-02-22 14:40:14 · 886 阅读 · 0 评论 -
Transformer原理
Transformer 是谷歌大脑在 2017 年底发表的论文 attention is all you need 中所提出的 seq2seq 模型。现在已经取得了大范围的应用和扩展,而 BERT 就是从 Transformer 中衍生出来的预训练语言模型这篇文章分为以下几个部分Transformer 直观认识Positional EncodingSelf Attention Mechanism残差连接和 Layer NormalizationTransformer Encoder 整体原创 2021-02-22 12:47:57 · 562 阅读 · 1 评论