Datawhale AI 夏令营 task1 笔记

一、引言
本次学习笔记主要围绕机器翻译(Machine Translation, 简称MT)的发展历程及其在深度学习中的应用展开。通过了解机器翻译的历史、不同方法以及当前的发展趋势,我们可以更好地理解和应用这一自然语言处理领域的重要技术。

二、机器翻译的发展历程
1. 基于规则的机器翻译(1950s-1980s)
早期的机器翻译系统主要采用基于规则的方法,这种方法依赖于语言学家编写的语法规则和词典进行翻译。其基本原理是“每一种语义在不同的语言当中都存在与其相对应的符号”,即将源语言中的单词替换为目标语言中表达相同含义的单词。然而,这种方法存在几个显著的缺点:

灵活性和适应性差:难以处理复杂的语言结构和多义词问题。
计算效率低:选择与给定源语言相适配的句法规则在计算上非常低效。
规则组织困难:为了应对多样的语言现象,语言学家们设计了规模庞大的句法规则,但这些规则难以有效组织,甚至会出现相互矛盾的情况。
缺乏上下文建模:基于规则的方法缺乏翻译过程中对上下文信息的建模,导致翻译模型的鲁棒性不佳。
2. 基于统计的机器翻译(1990s-2000s)
随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。这种方法通过分析大量双语文本,自动学习源语言和目标语言之间的对应关系,从而实现翻译。统计机器翻译在处理多义词和语言变异方面表现出更好的效果,但依赖于大量训练数据,对资源匮乏的语言支持不足。

统计机器翻译中最主流的方法包括基于词的统计机器翻译(Word-based MT)和基于短语的统计机器翻译(Phrase-based SMT),其流程一般包括预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。

3. 基于神经网络机器翻译(2010s-至今)
近年来,深度学习技术的快速发展推动了神经网络机器翻译(Neural Machine Translation, 简称NMT)的兴起。NMT 使用深度神经网络模型,如长短期记忆网络(LSTM)和Transformer,能够自动学习源语言和目标语言之间的复杂映射关系,无需人工设计特征或规则。NMT 在翻译质量、速度和适应性方面取得了显著进步,成为当前机器翻译领域的主流方法。

三、实践部分和理解
在‌⁠‌‌‌‍​​⁠​​​​​⁠​‌‍‍‬⁠‌​​⁠​‍‍‬‍‌​​‌​‍​​​​​‬‌​‬​从零入门NLP竞赛 - 飞书云文档 (feishu.cn)中有详细完成步骤

具体代码分为三部分
1. 速通 Baseline

2. 在开发集上进行模型评价

3. 在测试集上进行推理

机器翻译模型主要由以下部分组成

1. 依赖文件

2. 配置文件

3. 功能函数

4. 数据加载

5. 参数定义

6. 模型创建

7. 训练模型

8. 使用模型

9. 保存结果

四、成果
翻译成品
评分

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值