task1
-
机器翻译任务的发展历程
-
模型训练的数据格式
-
baseline 提升与思考
1 机器翻译任务的发展历程
机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本,经历了从基于规则的方法、统计方法到深度学习方法的演变过程。
基于规则的机器翻译(1950s-1980s):
早期的机器翻译系统主要采用基于规则的方法,即利用语言学家编写的语法规则和词典进行翻译。这种方法需要对源语言和目标语言的语法和词汇有深入的理解,但其灵活性和适应性较差,难以处理复杂的语言结构和多义词问题。
基于规则的机器翻译是机器翻译任务的第一套解决方案,它基于“每一种语义在不同的语言当中都存在与其相对应的符号”这一假设。对于某种语言中的大多数单词而言,通常都能够在另一种语言当中找到表达相同含义的对应的单词。在这类方法当中,翻译过程通常被看作一个源语言的词替换过程。
之所以被称为“基于规则的方法”,是因为同一种语义在不同的语言当中通常会以不同的词序去表达,词替换过程相对应地需要两种语言的句法规则作为指导。源语言中的每一个单词需要被放置在目标语言中相对应的位置。基于规则的机器翻译方法的理论非常简洁清晰,但在实践中的性能却不尽如人意。这是由于选择与给定源语言相适配的句法规则在计算上非常低效。同时,为了应对多样的语言现象,语言学家们设计了规模庞大的句法规则。
但是,这些规则很难被有效地组织,甚至会出现不同规则相互矛盾的情况。基于规则的方法最严重的缺陷在于其缺乏翻译过程中对上下文信息的建模,这使得基于规则的翻译模型的鲁棒性不佳。
基于统计的机器翻译(1990s-2000s):
随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。这种方法通过分析大量双语文本,自动学习源语言和目标语言之间的对应关系,从而实现翻译。统计机器翻译在处理多义词和语言变异方面表现出更好的效果,但由于其依赖于大量训练数据,对于资源匮乏的语言支持不足。
与基于规则的机器翻译方法不同,统计机器翻译完全从数据驱动的角度建模机器翻译任务。具体来说,通过对双语语料库的统计找到表达相同含义的单词或短语。给定一个源语言句子,统计机器翻译首先将其分割成若干个子句,接下来每个部分可以被目标语言的单词或短语替代。
统计机器翻译中最主流的方法是基于词的统计机器翻译(Word-based MT)以及基于短语的统计机器翻译(Phrase-based SMT),总体上来看包含预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。
基于神经网络机器翻译(2010s-present):
神经网络方法在机器翻译任务上的应用可以追溯到上世纪八九十年代。但受限于当时的计算资源和数据规模的限制,神经网络方法的性能差强人意,故而其发展停滞了很多年。
近年来,深度学习技术的快速发展推动了神经网络机器翻译(Neural Machine Translation,简称NMT)的兴起。NMT使用深度神经网络模型,如长短期记忆网络(LSTM)和 Transformer,能够自动学习源语言和目标语言之间的复杂映射关系,无需人工设计特征或规则。NMT在翻译质量、速度和适应性方面取得了显著进步,成为当前机器翻译领域的主流方法。
未来发展趋势:
当前,机器翻译正朝着更加智能化和个性化方向发展。一方面,结合上下文理解、情感分析等技术,提高翻译的准确性和自然度;另一方面,通过用户反馈和个性化学习,提供更加符合用户需求的翻译服务。同时,跨语言信息检索、多模态翻译等新兴领域也正在成为研究热点。
总的来说,机器翻译的发展历程是从规则驱动到数据驱动,再到智能驱动的过程,反映了自然语言处理技术的进步和应用需求的变化。
2 模型训练的数据格式
赛题数据
-
训练集:双语数据 - 中英14万余双语句对
-
开发集:英中1000双语句对
-
测试集:英中1000双语句对
-
术语词典:英中2226条
-
训练集(training set)用于运行你的学习算法。
-
开发集/验证集(Development/Validation Set)用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为留出交叉验证集(hold-out cross validation set)。
-
测试集(test set)用于评估算法的性能,但不会据此改变学习算法或参数。
评估指标 BLEU-4
对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标 BLEU-4 进行评价,具体工具使用 sacrebleu开源版本。
BLEU
,全称为Bilingual Evaluation Understudy
(双语评估替换),是一种对生成语句
进行评估的指标
。BLEU 评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。
在机器翻译领域,BLEU(Bilingual Evaluation Understudy)是一种常用的自动评价指标,用于衡量计算机生成的翻译与一组参考译文之间的相似度。这个指标特别关注 n-grams(连续的n个词)的精确匹配,可以被认为是对翻译准确性和流利度的一种统计估计。计算BLEU分数时,首先会统计生成文本中n-grams的频率,然后将这些频率与参考文本中的n-grams进行比较。如果生成的翻译中包含的n-grams与参考译文中出现的相同,则认为是匹配的。最终的BLEU分数是一个介于0到1之间的数值,其中1表示与参考译文完美匹配,而0则表示完全没有匹配。
BLEU-4 特别指的是在计算时考虑四元组(即连续四个词)的匹配情况。
BLEU 评估指标的特点:
-
优点:计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。
-
缺点:不考虑语言表达(语法)上的准确性;测评精度会受常用词的干扰;短译句的测评精度有时会较高;没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。
除了翻译之外,BLEU评分结合深度学习方法可应用于其他的语言生成问题,例如:语言生成、图片标题生成、文本摘要、语音识别。
baseline 提升与思考
修改了N和N_EPOCHS
N:选择数据集的前N个样本进行训练。
N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。
思考:增加训练样本,提高模型精度。