P11机器学习--李宏毅笔记(Transformer Decoder)Testing部分

目录

大概运作模式

 Encoder与Decoder对比

那为什么要用masked Self-attention呢 

怎么让输出停下来

AT vs NAT

cross-attention

Decoder接受的输入


大概运作模式

将Encoder的输出丢入到Deconder中,每一个输出会有一个distribution对应概率表,其中得分最高的即是现在的输出

当在第二步时我们既有BEGIN作为输入也有机作为输入

 然后以此类推,但是有可能接受到错误的信息导致一步错步步错的结果(这个问题怎么解决最后再讲)

 Encoder与Decoder对比

 通过这个图我们会发现,如果我们把Decoder中间这块遮住,那么Encoder与Decoder就差不多

这里加了个mask,这个mask是什么意思呢

 

 

原来的self attention,b1会考虑所有a1到a4而,masked self-attention,b1只关心a1,而b2只关心a1和a2

那为什么要用masked Self-attention呢 

Deconder用self-attention是因为Decoder常常可以拿到一大批数据,而Encoder拿得是Decoder的输出,而Decoder的输出是一个一个产生的,现有a1才有a2

怎么让输出停下来

在distruibution里面加入end,它可以和begin是同一字符也可以是不同字符

 

AT vs NAT

 

AT是一个一个丢进去,而Nat是一堆丢进去要判断结束要设置一个分类器。当然AT的效果好但是NAT速度快(并行处理)

cross-attention

其中两个输入来自decoder,一个输入来自encoder

 其中q来自decoder,k和v来的encoder这个就是cross attention

Decoder接受的输入

 在原始paper里,Encoder有好多层,都是拿Encoder最后一层的输出去给Decoder。但是也不一定这样,下图指出了可能性

 

到这里讲的都是训练好的模型怎么做testing,而没有讲怎么训练,下一章我们会将怎么训练

Transformer发轫于NLP(自然语言处理),并跨界应用到CV(计算机视觉)领域。目前已成为深度学习的新范式,影响力和应用前景巨大。  本课程对Transformer的原理和PyTorch代码进行精讲,来帮助大家掌握其详细原理和具体实现。  原理精讲部分包括:注意力机制和自注意力机制、Transformer的架构概述、Encoder的多头注意力(Multi-Head Attention)、Encoder的位置编码(Positional Encoding)、残差链接、层规范化(Layer Normalization)、FFN(Feed Forward Network)、Transformer的训练及性能、Transformer的机器翻译工作流程。   代码精讲部分使用Jupyter Notebook对TransformerPyTorch代码进行逐行解读,包括:安装PyTorchTransformer的Encoder代码解读、TransformerDecoder代码解读、Transformer的超参设置代码解读、Transformer的训练示例(人为随机数据)代码解读、Transformer的训练示例(德语-英语机器翻译)代码解读。相关课程: 《Transformer原理与代码精讲(PyTorch)》https://edu.csdn.net/course/detail/36697《Transformer原理与代码精讲(TensorFlow)》https://edu.csdn.net/course/detail/36699《ViT(Vision Transformer)原理与代码精讲》https://edu.csdn.net/course/detail/36719《DETR原理与代码精讲》https://edu.csdn.net/course/detail/36768《Swin Transformer实战目标检测:训练自己的数据集》https://edu.csdn.net/course/detail/36585《Swin Transformer实战实例分割:训练自己的数据集》https://edu.csdn.net/course/detail/36586《Swin Transformer原理与代码精讲》 https://download.csdn.net/course/detail/37045
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值