![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法基础
谁怕平生太急
110010
展开
-
Bert---理解基础
Bert理解的基础(1)Word Embedding(2)RNN(3)Seq2Seq(4)TransformerWord Embedding脉络w2v:词映射到低维稠密空间,使得语义上相似的两个词在语义空间的距离也会比较近。w2v的问题: 语义是上下文相关的。 而w2v训练出来词的向量始终只有一个。RNN/LSTM/GRU 来解决。 能记住一些历史信息。再往后发展,Se...原创 2019-09-11 00:00:21 · 450 阅读 · 0 评论 -
Bert---初识
创新点:1)将双向Transformer用于语言模型,而之前的模型是从左向右输入一个文本序列,或者将left-to-right 和 right-to-left 的训练结合起来。2)介绍了一种新技术 Masked LM(MLM),在这个技术出现之前是无法进行双向语言模型训练的。实验的结果表明,双向训练的语言模型对语境的理解会比单向的语言模型更深刻。BERT 利用了 Transformer的 ...原创 2019-09-09 22:41:39 · 152 阅读 · 0 评论 -
通俗理解---LSTM
LSTM:RNN中一种重要的变种,应用最广泛的特征抽取模型。核心:既要考虑 “记住” 前面时刻的内容, 又要考虑不要让前面时刻的内容干扰到当前时刻的输入。以下内容由自己口水话的方式论述, 不涉及参数计算、和具体前向、反向传播算法。先贴一张内部原理图:关于这张图,见过很多遍,但是完全理解却花了不少时间。以下是我个人的一些通俗理解:LSTM建立的初衷是为了解决 对长句子记忆不到位的问题。...原创 2019-09-05 00:48:48 · 528 阅读 · 0 评论 -
几种预训练模型:bert-wwm,RoBERTa,RoBERTa-wwm
bert-large:24层,330M参数bert-base:12层,110M参数1.bert-wwmwwm即whole word masking(对全词进行mask),谷歌2019年5月31日发布,对bert的升级,主要更改了原预训练阶段的训练样本生成策略。改进:用mask标签替换一个完整的词而不是字。2.bert-wwm-extbert-wwm的升级版,改进:增加了训练数据集同时也增加了训练步数。3.RoBERTa相对于Bert的改进:更多的数据、更多的训练步数、更大的批次(8000),用原创 2020-12-23 14:21:04 · 8620 阅读 · 2 评论 -
通俗理解---Attention注意力机制
来源: 我们在看一个句子的时候,会着重看句子的主语(或者其他成分),这个时候注意力是有重点的,如何让计算机处理的时候也有这个“注意力”呢?注意力分配:在信息处理过程中,对不同的内容分配不同的注意力权重。1 Attention在哪里想知道Attention具体的机制,首先得对seq2seq有一些了解。seq2seq其实就是 编码 + 解码。编码做的事情: 对输入序列进行编码, 生成 一个中...原创 2019-09-07 13:02:50 · 2137 阅读 · 0 评论 -
Bert---进一步理解transformer结构
0 接上一篇Transformer结构https://blog.csdn.net/jinselizhi/article/details/100716623输入两个词,通过wordembedding变成向量,然后通过self-attention变成考虑上下文的向量。然后再接全连接层、接着是第二个encoder。这里的self-attention画的一个大的框:计算z1 是要依赖于整个x1、...原创 2019-09-15 22:55:20 · 1174 阅读 · 0 评论 -
Bert---ELMo、GPT
接上一篇:结合上下文的 word embedding — ELMo首先通过 pre-train 学习 一个语言模型(前面的预测后面的:我要去北京玩,用“我要去”预测“北京”…),多层双向LSTM编码,上下文的每个词都可以得到 2*n个向量(n是层数)ELMo 是一种特征提取的方法:通过pre-train的方法学习了 一个双向的语言模型,来了一个句子,就可以把它变成序列的向量,而且这个...原创 2019-09-19 00:04:55 · 408 阅读 · 0 评论 -
Transformer合集
位置编码:https://zhuanlan.zhihu.com/p/454482273自注意力:https://zhuanlan.zhihu.com/p/455399791长文概述:https://zhuanlan.zhihu.com/p/630356292缓存和效果的拉扯(MHA、MQA、GQA、MLA):https://spaces.ac.cn/archives/10091为什么Pre Norm不如Post Norm?原创 2024-07-23 20:48:38 · 107 阅读 · 0 评论