统计机器翻译——>神经机器翻译——编解码器如何处理长句子?基于短语的传统方法:
1、神经机器编解码器,始终是先把输入的句子序列处理成一个固定长度的向量。这其中暴露的问题,
其一,要把源句子所包含的信息压缩成固定长度的向量,而且是很多长句子,可能比语料库中的句子多——长句子的灾难问题
其二,如果语料库中长句子没有得到很好的训练,第一性能与速度问题,第二神经网络也是很难处理长句子的
解决办法:
引入一个自动扩展的编码器-解码器模型学习共同调整和翻译每次提出的模型在翻译中生成一个词,
它(软-)搜索源句中最相关信息的一组位置集中。然后,该模型根据相关的上下文向量预测目标词
这些源位置和之前生成的所有目标词。
实现过程:
将原来固定长度的向量,分解为一个个带有序列标志的小向量,在解码的时候,向量序列自动与对应的向量对齐,这也省去编码固定
长度的向量,还可以很好的编码长句子。
软对齐和翻译概率联合模型