一、机器翻译发展历程
机器翻译(Machine Translation,简称MT)目标是将一种语言的文本自动转换为另一种语言的文本。
1950s-1980s:基于规则的机器翻译,利用语言学家编写的语法规则和词典进行翻译。
1990s-2000s:基于统计的机器翻译,通过分析大量双语文本,自动学习源语言和目标语言之间的对应关系,从而实现翻译。
2010s-present:基于神经网络的机器翻译,利用深度学习技术实现 神经网络机器翻译(Neural Machine Translation,简称NMT)。NMT为当前机器翻译领域的主流方法。
二、知识补充
自动评价指标 BLEU-4:一种常用的自动评价指标,用于衡量计算机生成的翻译与一组参考译文之间的相似度。
训练集(Training Set):用于训练模型,使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数,以最小化预测误差。
开发集/验证集(Development/Validation Set):用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据,用于评估模型在未见过的数据上的表现。
测试集(Test Set):用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。
过拟合(overfitting):训练误差和测试误差之间的差距太大。模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背",泛化能力差。
三、二次baseline测试
第一次的测试结果差强人意,在略微了解了一下baseline里的代码结合代码中所留下的注释后,对两个地方修改后,进行了第二次的测试。
在给出的基础模型代码中,可以在main里找到一个熟悉的变量N,它代表选择训练的样本个数;再往下看可以找到与N关联的N_EPOCHS,它代表训练样本的次数。二者是最基础也是小白最容易修改优化的部分。
将这两个值改为你所期望的值,再次测试。
可以看见成绩显著的提升了0.5分!当然0.5对于整个要求是一个微不足道的分数,离完成还有很长的路。
ps:N和N_EPOCHS也不是越高越好,都有一个上限和下限,超过或低于某个值训练过程所给出的train_loss就不会变化了,也就是出现了前文所说的过拟合现象。