【Datawhale AI 夏令营】基于术语词典干预的机器翻译挑战赛 Task 1

HangYee

已于 2024-07-17 22:35:07 修改

阅读量279

点赞数 3

分类专栏： Datawhale AI 夏令营文章标签：人工智能机器翻译自然语言处理

于 2024-07-17 15:09:20 首次发布

本文链接：https://blog.csdn.net/2301_77461379/article/details/140495905

版权

Datawhale AI 夏令营专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Datawhale 2024 年 AI 夏令营第二期的学习活动（“NLP”方向），基于讯飞开放平台“基于术语词典干预的机器翻译挑战赛”开展的实践学习。

赛题分析

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果。

赛题数据包括：

训练集：双语数据：中英14万余双语句对，每行为一个句对样本
开发集：英中1000双语句对
测试集：英中1000双语句对
术语词典：英中2226条

测评官方发放的训练集、开发集、测试集和术语词典皆为文本文件，编码为 UTF-8。提交文件的文件格式为 txt 格式，编码为 UTF-8。

对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标 BLUE-4 进行评价，具体工具使用 sacrebleu 开源版本。

训练模型过程中卜可以使用除提供的数据外的其他数据，不可以使用预训练模型。

自然语言处理（Natural Language Processing），是人工智能及语言学领域的一个重要分支，它关注如何使计算机能够理解、解释和生成人类的自然语言。

机器翻译（Machine Translation）是自然语言处理领域的一个重要分支，其目标是将一种语言的文本自动转换为另一种语言的文本。从早期的依赖语言学规则和基于语料库的统计方法，到如今采用深度学习和神经网络，特别是注意力机制，机器翻译系统不仅能够实时翻译，还能处理多种语言，甚至融合视觉和听觉信息进行实时多模态翻译。

机器学习项目中数据集的划分主要包括以下三个部分：

训练集（Training Set）：用于训练模型，让模型学习不同语言间的翻译模式。
开发/验证集（Development/Validation Set）：在训练过程中用于调整模型参数，防止过拟合，监测模型性能。
测试集（Test Set）：独立于训练和验证集，用于最终评估模型在未见过的新数据上的翻译质量。

这种划分有助于确保模型不仅在已知数据上表现良好，也能在未知数据上泛化得当。

BLEU（Bilingual Evaluation Understudy）是一种用于评估机器翻译质量的自动评价指标。其评分基于 n-gram（连续的词序列）的精确度匹配。

BLEU-4 特别关注的是四元组（四词序列），即 n=4 的情况。它通过比较候选翻译中出现的四词序列与参考翻译中相同的四词序列的数量来计算精确度。

BLEU-4 的值范围在 0 到 1 之间，值越接近 1 表示翻译质量越高。然而，BLEU-4 也有局限性，因为它只考虑了 n-gram 的匹配，没有考虑到翻译的信达雅，因此无法完全反映人类的翻译评估标准。

baseline

baseline 实现了一个序列到序列（Seq2Seq）翻译模型的训练、评价和推理流程。

通过调整 baseline 中的参与训练的样本数量 N 和训练次数 Epoch 可以对模型效果进行一定的提升，但是调整参数得到的提升是有限的，不合适的参数也可能导致过拟合等问题。

baseline 中选取的 N 为 1000 和 2000，Epoch 为 10 和 50。样本数量肯定是需要调整的，毕竟训练集有 14w 条数据对。经过实测，在 [1000, 10] 参数组合下得分在 [0.2, 0.3] 区间，在 [2000, 50] 参数组合下，得分在 [0.6, 0.8] 区间。如果增大样本数量到 14w，则在魔搭平台上进行 1 次完整训练可能需要数个小时（视 GPU 资源紧张程度而定），从学习的角度，初步拟定参数组合为 [0.1N, 10]，最终在平台的得分为 1.1462。