[NLP学习笔记01]seq2sq2、非端到端模型架构

最新推荐文章于 2023-05-26 16:00:39 发布

最初热忱

最新推荐文章于 2023-05-26 16:00:39 发布

阅读量579

点赞数

文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_44828437/article/details/126686230

版权

关于对端到端模型、非端到端模型架构的理解

1.端到端模型(end to end learning)

端到端模型是指数据不经过任何的预处理直接作为模型的输入。经过模型输出的结果会与原来的label有所误差，通过反向传播算法，将参数不断修正、优化。在人脸识别问题，假设原图是一张大图，里面会一个人或几个人，那么端到端就是原图丢进网络，直接返回每个人对应的识别id（比如输出小明和小红。

2.非端到端模型

非端到端模型是采用多个模型，在模型中针对具体的任务会分解不同的模块，每个模块需要处理独立的任务，由于每个任务单独训练，这些任务产生的错误会相互叠加。即某一层的错误作为输入传到下一层，会影响下一层的训练。在人脸识别问题中，首先过滤其他要素，检测到人脸，再对人脸进行识别。

3.Seq2seq(Sequence to Sequence)

seq2seq是端到端模型架构在应用层的概念，是序列到序列的模型。具体是指通过编码(Decoder)和解码(Encoder)两个过程将一个作为输入的序列信号转换为输出的序列信号，在经典的实现中,编码器和解码器各由一个循环神经网(RNN,LSTM,GRU均可)构成。
seq2seq模型

4.RNN、LSTM

循环神经网络(Recurrent Neural Network, RN)是一类以序为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。在自然语言处理中，RNN更关注于context vector的分布结果，（1）如果context vector不够有效，会出现Bottle Neck问题。（2）由于不断地连续求导会出现梯度消失问题。LSTM简单来说通过引入注意力机制，将注意力集中在某个区域。