[NLP学习笔记01]seq2sq2、非端到端模型架构

关于对端到端模型、非端到端模型架构的理解

1.端到端模型(end to end learning)

端到端模型是指数据不经过任何的预处理直接作为模型的输入。经过模型输出的结果会与原来的label有所误差,通过反向传播算法,将参数不断修正、优化。在人脸识别问题,假设原图是一张大图,里面会一个人或几个人,那么端到端就是原图丢进网络,直接返回每个人对应的识别id(比如输出小明和小红。

2.非端到端模型

非端到端模型是采用多个模型,在模型中针对具体的任务会分解不同的模块,每个模块需要处理独立的任务,由于每个任务单独训练,这些任务产生的错误会相互叠加。即某一层的错误作为输入传到下一层,会影响下一层的训练。在人脸识别问题中,首先过滤其他要素,检测到人脸,再对人脸进行识别。

3.Seq2seq(Sequence to Sequence)

seq2seq是端到端模型架构在应用层的概念,是序列到序列的模型。具体是指通过编码(Decoder)和解码(Encoder)两个过程将一个作为输入的序列信号转换为输出的序列信号,在经典的实现中,编码器和解码器各由一个循环神经网(RNN,LSTM,GRU均可)构成。
seq2seq模型

4.RNN、LSTM

循环神经网络(Recurrent Neural Network, RN)是一类以序为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。在自然语言处理中,RNN更关注于context vector的分布结果,(1)如果context vector不够有效,会出现Bottle Neck问题。(2)由于不断地连续求导会出现梯度消失问题。LSTM简单来说通过引入注意力机制,将注意力集中在某个区域。

5.Transfomer

Transfomer模型从宏观上看仍然是Decoder-Encoder结构,但是通过引入自注意力机制(self-attention)重新进行构建,摒弃了RNN结构。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值