Datawhale AI 夏令营——从零入门NLP竞赛 Task 01 笔记

作者:一片蔚蓝的天空

一、机器翻译的发展历程

机器翻译的发展历程可以概括为三个主要阶段:

1. 基于规则的机器翻译:在1950s至1980s,这种方法依赖语言学家制定的语法规则和词典进行翻译,但因缺乏灵活性和适应性,在处理复杂语言结构和多义词方面表现不佳。

2. 基于统计的机器翻译:从1990s到2000s,随着计算能力提升和大规模语料库的出现,统计方法通过分析双语文本自动学习语言对应关系,改善了多义词处理,但对训练数据依赖性强,对资源匮乏语言支持不足。

3. 基于神经网络的机器翻译:自2010s至今,深度学习技术的发展推动了神经网络翻译的兴起,使用如LSTM和Transformer等模型,无需人工设计特征或规则,翻译质量、速度和适应性显著提高。

未来,机器翻译将向更智能化和个性化发展,结合上下文理解、情感分析等技术提升准确性和自然度,并通过用户反馈和个性化学习提供定制化服务。同时,跨语言信息检索和多模态翻译等新兴领域也将是研究的重点。
 

二、数据划分

  • 训练集(Training Set)

    1. 作用:训练集用于训练模型,使模型能够学习输入数据与输出结果之间的映射关系。模型会根据训练集中的样本调整其参数,以最小化预测误差。

    2. 目标:让模型在训练数据上尽可能地拟合好,学习到数据的内在规律。

  • 开发集/验证集(Development/Validation Set)

    1. 作用:开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。它作为独立于训练集的数据,用于评估模型在未见过的数据上的表现。

    2. 目标:通过在开发集上的性能评估,选择最佳的模型配置,避免模型在训练集上过度拟合,确保模型的泛化能力。

  • 测试集(Test Set)

    1. 作用:测试集用于最终评估模型的性能,是在模型训练和调参完全完成后,用来衡量模型实际应用效果的一组数据。它是最接近真实世界数据的评估标准。

    2. 目标:提供一个公正、无偏见的性能估计,反映模型在未知数据上的泛化能力

  • K折交叉验证: 当训练数据稀缺时,我们甚至可能无法提供足够的数据来构成一个合适的验证集。 这个问题的一个流行的解决方案是采用𝐾折交叉验证。 这里,原始训练数据被分成𝐾个不重叠的子集。 然后执行𝐾次模型训练和验证,每次在𝐾−1个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。 最后,通过对𝐾次实验的结果取平均来估计训练和验证误差。

  • 欠拟合(underfitting): 当我们比较训练和验证误差时, 如果模型不能降低训练误差,这可能意味着模型过于简单(即表达能力不足), 无法捕获试图学习的模式。 此外,由于我们的训练和验证误差之间的泛化误差很小, 我们有理由相信可以用一个更复杂的模型降低训练误差。 这种现象被称为欠拟合(underfitting)

  • 过拟合(overfitting): 另一方面,当我们的训练误差明显低于验证误差时要小心, 这表明严重的过拟合(overfitting)。 注意,过拟合并不总是一件坏事。 特别是在深度学习领域,众所周知, 最好的预测模型在训练数据上的表现往往比在保留(验证)数据上好得多。 最终,我们通常更关心验证误差,而不是训练误差和验证误差之间的差距。

三、评估指标: BlEU-4

  • 定义:BLEU-4是BLEU评分的一种,专注于四元组(连续四个词)的匹配。
  • 起源:由Kishore Papineni等人于2002年提出。
  • 应用领域:机器翻译质量评估。
  • 工作原理:通过比较生成文本与参考文本的n-grams频率来衡量相似度。
  • 分数范围:0到1,1表示完美匹配,0表示无匹配。
  • 优点
    • 计算速度快。
    • 成本低。
    • 易于理解。
    • 与具体语言无关。
    • 与人类评估高度相关。
  • 缺点
    •  不考虑语法准确性。
    • 受常用词干扰。
    • 短句可能评分偏高。
    • 不识别同义词或相似表达,可能导致误判。
  • 其他应用:适用于语言生成、图片标题生成、文本摘要、语音识别等。
     
  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值