Transformer
会写代码的孙悟空
长夜将至,我将开始守护chatGPT,直至永恒。我将不图安逸,不恋名利,不惧挑战。我将不拘泥于旧知,不追求虚荣。我将全力以赴,勇攀科学之巅。我是黑暗中的明灯,chatGPT的利剑。我是破除迷雾的火焰,照亮chatGPT未来的光辉,唤醒求知者的号角,守护chatGPT真理的坚盾。我将生命与荣耀献给chatGPT的研究,今日如此,日日皆然。
展开
-
transformer中layer normalization详解
2015年batch normalization提出 2016年的layer normalization这是在论文中截的图,箭头指向的青色线代表加了layer normalization的模型,收敛速度最快。layer normalization第二个优点,batch数据的多个样本可以是长度不同的,input_data_shape=B * C * dim 虽然每个样本通道维度都是C, 但是如果有的样本没有C这么长,是经过padding技术增加成统一长度的呢?具体来讲,多个句子作为.原创 2022-03-17 15:42:48 · 2484 阅读 · 0 评论 -
transformer中的autoregressive什么意思
autoregressiveadj. 自回归的eg: autoregressive model自回归的模型autoregressive process自回归的过程adv. 自回归地eg: autoregressive predicted 自回归地预测算法含义一个一个token地预测出来,预测第n个token会根据前n-1个token数据作用这个过程可以加强token内部联系地学习,算是一种先验...原创 2021-12-08 16:03:59 · 3795 阅读 · 0 评论 -
vqvae详细解释
模型综述 #VQ-VAE(Vector Quantised - Variational AutoEncoder)首先出现在论《Neural Discrete Representation Learning》作为一个自编码器,VQ-VAE的一个明显特征是它编码出的编码向量是离散的,换句话说,它最后得到的编码向量的每个元素都是一个整数,这也就是“Quantised”的含义,我们可以称之为“量子化”(跟量子力学的“量子”一样,都包含离散化的意思)。明明整个模型都是连续的、可导的,但最终得到的编码向量却是离散原创 2021-10-28 21:18:48 · 12188 阅读 · 5 评论 -
Transformer哲学
一切苦痛 皆为过往当我们科研遇到困难时,请大胆寻求Transformer的帮助吧!Transformer用一种苍老的声音问询: 你有什么? 你要什么? ni'zen'me原创 2021-06-15 10:25:01 · 50 阅读 · 0 评论