(深度学习)Transformer

Transformer

Application

for speech

  • 实质上是seq2seq

  • 语音辨识;机器翻译 ;语音翻译(比如闽南语–》中文 由于很多语言没有文字);共同的特征都是输入固定长度seq 输出的seq长度由模型自己决定
    在这里插入图片描述

  • 语音翻译

在这里插入图片描述

  • 语音合成(输入中文 输出闽南语的声音讯号)

for chatbot

在这里插入图片描述

NLP

  • 大部分NLP可以看成是QA
    在这里插入图片描述

Multi-label Classification

  • 一个object对应多个labels

  • 让model决定输出多少长的seq

在这里插入图片描述

Object Detection

在这里插入图片描述

seq2seq

  • 包含一个Encoder和Decoder

  • Encoder和Decoder可以用self-attention去完成
    在这里插入图片描述

Encoder

  • 需要做的是输入一排向量 输出一排向量
    • 总体架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dV1yZaXz-1648265057036)(/home/hoyard/Pictures/2022-03-25 08-52-09 的屏幕截图.png)]

  • 通过多个block

    • 每个block input–》(self-attention + input)

在这里插入图片描述

  • self-attention的输出会加上输入的seq(residual)

  • 再进行layer norm —》FC FC也采用residual的方式

  • FC —> Norm Layer

在这里插入图片描述

Decoder(Autoregressive)

  • 将Encoder输出的向量放入Decoder

  • 给decoder一个信号BOS(begin of seq)(one-hot vector)

  • decoder输出一个向量 向量长度是字典的字数 每一个字对应一个值 比如中文就是字典里的字数

  • 选择向量分数最大的输出那个字

在这里插入图片描述

  • 输入第二个seq 循环上述步骤 而第二个输入是decoder的第一个输出
  • 故存在问题:一步错步步错

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YC6z0RAn-1648265057039)(/home/hoyard/Pictures/2022-03-26 09-02-45 的屏幕截图.png)]

Decode网络结构

在这里插入图片描述

  • Masked

    • 产生信息时不能用当前seq后面的seq信息
      在这里插入图片描述

    • 产生b2

在这里插入图片描述

  • why masked:decoder里面是先有a1 才能产生 a2

  • Decoder 自己学习产生seq的长度 故希望输出玩期望seq之后会输出end vector

在这里插入图片描述

NAT(None Autoregressive) Decoder

  • 直接输入特定长度的Begin token 产生对应长度的vector

  • 无法确定输入begin的长度

    • learn一个classify model 输入是encoder的输入 输出一个数字 这个数字就是begin的长度
    • 直接给出一个最大长度的begin 在output中找到end 之后的输出忽略
  • 对比AT的优势:

    • 平行处理
    • 输出长度可控

在这里插入图片描述

Encoder2Decoder

在这里插入图片描述

Cross attention
  • q来自于Decoder k v来自于Encoder
    在这里插入图片描述
    在这里插入图片描述

Training

  • 希望输出的one-hot vector跟gt的one-hot vector越接近越好

  • 类似于分类问题
    在这里插入图片描述

  • 每一个输出都有一个cross entropy 希望所有加起来的entropy总和最小

  • 训练时候将gt作为input(Teaching Forcing)
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习中的Transformer是一种用于序列建模的架构,它在自然语言处理和机器翻译等任务中取得了很大的成功。Transformer通过使用注意力机制来建立输入序列与输出序列之间的长距离依赖关系,在处理长序列时表现出色。 Transformer模型的基本结构可以看作是工业界的风向标,目前在市场上有很大的应用空间。它采用了Encoder-Decoder的架构,其中编码器部分负责将输入序列映射到隐藏表示,而解码器部分则将隐藏表示映射到输出序列。 在Transformer架构中,编码器和解码器都由多层的自注意力机制和前馈神经网络组成。自注意力机制允许模型在处理输入序列时将注意力集中在不同的位置,从而捕捉到全局的语义信息。前馈神经网络则负责对输入的隐藏表示进行非线性变换。 总而言之,深度学习中的Transformer是一种用于序列建模的架构,它采用了编码器-解码器结构,并通过注意力机制来捕捉序列之间的依赖关系。它在自然语言处理等任务中具有广泛的应用前景。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [深度学习-Transformer实战系列课程](https://download.csdn.net/download/muihoa/86656806)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [深度学习 Transformer架构解析](https://blog.csdn.net/mengxianglong123/article/details/126261479)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [深度学习-Transformer详解](https://blog.csdn.net/fzz97_/article/details/128905992)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值