机器翻译
主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
流程:
- 数据预处理
- 分词
- 建立词典
- 建立模型
Encoder-Decoder模型:
一种应用于seq2seq问题的模型,所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。在具体实现的时候,编码器和解码器不是固定的,可选的有CNN/RNN/BiRNN/GRU/LSTM等等,可以自由组合。
缺点:
编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说,编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端,一是语义向量无法完全表示整个序列的信息;还有就是先输入的内容携带的信息会被后输入的信息稀释掉,或者说,被覆盖了。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息, 那么解码的准确度自然也就要打个折扣了。