Datawhale AI 夏令营——从零入门NLP竞赛 Task 01 笔记-CSDN博客

本文链接：https://blog.csdn.net/goodbye_bugs/article/details/140404953

作者：一片蔚蓝的天空

一、机器翻译的发展历程

机器翻译的发展历程可以概括为三个主要阶段：

1. 基于规则的机器翻译：在1950s至1980s，这种方法依赖语言学家制定的语法规则和词典进行翻译，但因缺乏灵活性和适应性，在处理复杂语言结构和多义词方面表现不佳。

2. 基于统计的机器翻译：从1990s到2000s，随着计算能力提升和大规模语料库的出现，统计方法通过分析双语文本自动学习语言对应关系，改善了多义词处理，但对训练数据依赖性强，对资源匮乏语言支持不足。

3. 基于神经网络的机器翻译：自2010s至今，深度学习技术的发展推动了神经网络翻译的兴起，使用如LSTM和Transformer等模型，无需人工设计特征或规则，翻译质量、速度和适应性显著提高。

未来，机器翻译将向更智能化和个性化发展，结合上下文理解、情感分析等技术提升准确性和自然度，并通过用户反馈和个性化学习提供定制化服务。同时，跨语言信息检索和多模态翻译等新兴领域也将是研究的重点。

二、数据划分

训练集（Training Set）：
1. 作用：训练集用于训练模型，使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数，以最小化预测误差。
2. 目标：让模型在训练数据上尽可能地拟合好，学习到数据的内在规律。
开发集/验证集（Development/Validation Set）：
1. 作用：开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据，用于评估模型在未见过的数据上的表现。
2. 目标：通过在开发集上的性能评估，选择最佳的模型配置，避免模型在训练集上过度拟合，确保模型的泛化能力。
测试集（Test Set）：
1. 作用：测试集用于最终评估模型的性能，是在模型训练和调参完全完成后，用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。
2. 目标：提供一个公正、无偏见的性能估计，反映模型在未知数据上的泛化能力
K折交叉验证: 当训练数据稀缺时，我们甚至可能无法提供足够的数据来构成一个合适的验证集。这个问题的一个流行的解决方案是采用𝐾折交叉验证。这里，原始训练数据被分成𝐾个不重叠的子集。然后执行𝐾次模型训练和验证，每次在𝐾−1个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证。最后，通过对𝐾次实验的结果取平均来估计训练和验证误差。
欠拟合（underfitting）: 当我们比较训练和验证误差时，如果模型不能降低训练误差，这可能意味着模型过于简单（即表达能力不足），无法捕获试图学习的模式。此外，由于我们的训练和验证误差之间的泛化误差很小，我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合（underfitting）。
过拟合（overfitting）: 另一方面，当我们的训练误差明显低于验证误差时要小心，这表明严重的过拟合（overfitting）。注意，过拟合并不总是一件坏事。特别是在深度学习领域，众所周知，最好的预测模型在训练数据上的表现往往比在保留（验证）数据上好得多。最终，我们通常更关心验证误差，而不是训练误差和验证误差之间的差距。