1.encoder-decoder
编码器-解码器模型架构
encoder:将现实问题转化成数学问题
decoder:求解数学问题,转化成现实世界的解决方案
缺陷:encoder接受输入,通过一个向量C,decoder产生输出。
不管输入以及输出的长度是什么,这个中间的向量C是固定长度的
对缺陷的补充说明举例:
将一张800*800的照片压缩成100KB可能还行,比较清晰,但是将3000*3000的照片压缩可能就有点看不下去了 。问题在于:当输入信息太长时,会丢弃一些信息。
2.Seq2Seq:
输入一个序列,得到另一个序列,关键在于输入输出序列的长度是可变的
3,基于1中的缺陷,引入attention机制。
attention模型的特点是不再将encoder的输入编码成一个固定长度的向量,而是编码成一个向量序列。
attention机制优点:
速度快:解决了RNN不能并行的问题,可以像CNN一样并行计算
参数少:比CNN,RNN参数更少,算力要求低
效果好: 长文本信息也能抓住重点记忆。