Datawhale AI 夏令营学习笔记——NLP竞赛——Task1

asphysiaa

已于 2024-07-13 23:34:03 修改

阅读量1.5k

点赞数 28

文章标签：人工智能学习笔记

于 2024-07-13 23:08:43 首次发布

本文链接：https://blog.csdn.net/asphysiaa/article/details/140405395

版权

一、机器翻译概述

机器翻译（Machine Translation，简称MT）是自然语言处理领域的一个重要分支，其目标是将一种语言的文本自动转换为另一种语言的文本。机器翻译的发展可以追溯到20世纪50年代，经历了从基于规则的方法、统计方法到深度学习方法的演变过程。

1、基于规则的机器翻译（1950s-1980s）：

早期的机器翻译系统主要采用基于规则的方法，即利用语言学家编写的语法规则和词典进行翻译。这种方法需要对源语言和目标语言的语法和词汇有深入的理解，但其灵活性和适应性较差，难以处理复杂的语言结构和多义词问题。

基于规则的机器翻译是机器翻译任务的第一套解决方案，它基于“每一种语义在不同的语言当中都存在与其相对应的符号”这一假设。对于某种语言中的大多数单词而言，通常都能够在另一种语言当中找到表达相同含义的对应的单词。在这类方法当中，翻译过程通常被看作一个源语言的词替换过程。

理论非常简洁清晰，但在实践中的性能却不尽如人意。这是由于选择与给定源语言相适配的句法规则在计算上非常低效。同时，为了应对多样的语言现象，语言学家们设计了规模庞大的句法规则。但是，这些规则很难被有效地组织，甚至会出现不同规则相互矛盾的情况。基于规则的方法最严重的缺陷在于其缺乏翻译过程中对上下文信息的建模，这使得基于规则的翻译模型的鲁棒性不佳。

2、基于统计的机器翻译（1990s-2000s）：

随着计算机性能的提升和大规模平行语料库的出现，统计机器翻译开始兴起。这种方法通过分析大量双语文本，自动学习源语言和目标语言之间的对应关系，从而实现翻译。统计机器翻译在处理多义词和语言变异方面表现出更好的效果，但由于其依赖于大量训练数据，对于资源匮乏的语言支持不足。

与基于规则的机器翻译方法不同，统计机器翻译完全从数据驱动的角度建模机器翻译任务。具体来说，通过对双语语料库的统计找到表达相同含义的单词或短语。给定一个源语言句子，统计机器翻译首先将其分割成若干个子句，接下来每个部分可以被目标语言的单词或短语替代。

统计机器翻译中最主流的方法是基于词的统计机器翻译（Word-based MT）以及基于短语的统计机器翻译（Phrase-based SMT），总体上来看包含预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。

3、基于神经网络机器翻译（2010s-present）：

神经网络方法在机器翻译任务上的应用可以追溯到上世纪八九十年代[405, 406]。但受限于当时的计算资源和数据规模的限制，神经网络方法的性能差强人意，故而其发展停滞了很多年。

近年来，深度学习技术的快速发展推动了神经网络机器翻译（Neural Machine Translation，简称NMT）的兴起。NMT使用深度神经网络模型，如长短期记忆网络（LSTM）和 Transformer，能够自动学习源语言和目标语言之间的复杂映射关系，无需人工设计特征或规则。NMT在翻译质量、速度和适应性方面取得了显著进步，成为当前机器翻译领域的主流方法。

二、数据划分

在机器学习和深度学习项目中，数据集通常被划分为三个部分：训练集（Training Set）、开发集（Development Set，也常被称为验证集，Validation Set）和测试集（Test Set）。这种划分的主要目的是为了评估模型的性能并防止过拟合，确保模型具有良好的泛化能力。

三、赛题解析

赛事背景

目前神经机器翻译技术已经取得了很大的突破，但在特定领域或行业中，由于机器翻译难以保证术语的一致性，导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果，可以通过术语词典进行纠正，避免了混淆或歧义，最大限度提高翻译质量。

赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果

评估指标

对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标BLEU-4 进行评价。

BLEU-4介绍

BLEU，全称为Bilingual Evaluation Understudy（双语评估替换），是一种对生成语句进行评估的指标。

在机器翻译领域，BLEU（Bilingual Evaluation Understudy）是一种常用的自动评价指标，用于衡量计算机生成的翻译与一组参考译文之间的相似度。这个指标特别关注 n-grams（连续的n个词）的精确匹配，可以被认为是对翻译准确性和流利度的一种统计估计。计算BLEU分数时，首先会统计生成文本中n-grams的频率，然后将这些频率与参考文本中的n-grams进行比较。如果生成的翻译中包含的n-grams与参考译文中出现的相同，则认为是匹配的。最终的BLEU分数是一个介于0到1之间的数值，其中1表示与参考译文完美匹配，而0则表示完全没有匹配。

BLUE 评估指标的特点：