跟李沐学AI——动手学深度学习
文章平均质量分 86
有DL基础,复习巩固用
Jun-llj
系统化学习让人成长,碎片化学习让人焦虑
展开
-
【跟李沐学AI 动手学深度学习】注意力机制 笔记
卷积、全连接、池化层都只考虑不随意线索(直接把最大的值抽出来)注意力机制考虑随意线索随意线索被称为查询(query)每个输入是一个值(value)和不随意线索(key)的对通过注意力池化层,根据query,有偏向(权重)地去选择某些输入一般写作fx∑iαxxiyifx∑iαxxiyi,此处的αxxiαxxi是注意力权重。原创 2023-08-15 21:25:28 · 126 阅读 · 0 评论 -
【跟李沐学AI 动手学深度学习】seq2seq 笔记
得到p1=4/5(A B C D/A B B C D,预测序列有5个词,其中4个可以和标签序列对应的上,不算重复)已知标签序列A B C D E F和预测得到的序列A B B C D,pn是预测中所有n-gram的精度。训练时解码器使用目标句子的输入,即有一步训练错了也没关系,下一步的训练还是使用的目标句子。从序列到序列,最早用于机器翻译,即给定一个源语言句子,自动翻译成目标语言。惩罚过短的预测(比如预测得到了A,它的pn肯定都很高,都为1)编码器没有输出,其最后时间步的隐状态用作解码器的初始隐状态。原创 2023-08-15 21:28:52 · 55 阅读 · 0 评论 -
【跟李沐学AI 动手学深度学习】Transformer 笔记
归一化会使得网络训练得比较深比较好,但是此处不能用batch normalization,因为BN是对每一个通道或者每一个特征的向量做归一化,而语言序列的长度会变,所以特征会不稳定,不适合做BN。一个全连接,将输入形状由(b,n,d)变换为(bn,d),因为序列长度会变,所以n不能作为一个特征。在自注意力中,前t个预测值作为key、value,第t个预测值还会作为query。多头注意力使用h个独立的注意力池化,合并各个头(head)输出得到最终输出。另一个全连接,将形状由(bn,d)变换为(b,n,d)原创 2023-08-15 21:32:30 · 55 阅读 · 0 评论