科大讯飞之基于术语词典干预的机器翻译挑战赛baseline及改进（Datawhale AI 夏令营）

会飞的Anthony

于 2024-07-14 09:30:00 发布

阅读量173

点赞数 2

分类专栏：人工智能自然语言处理文章标签：机器翻译人工智能自然语言处理

本文链接：https://blog.csdn.net/ljd939952281/article/details/140403236

版权

比赛背景

目前，神经机器翻译（NMT）技术在翻译质量和速度方面已经取得了显著进展。然而，在特定领域或行业中，NMT仍面临一些挑战，尤其是在术语一致性方面。对于术语名词、人名地名等特定词汇，机器翻译经常会出现不准确的结果，这会导致翻译的混淆或歧义。通过引入术语词典，可以纠正这些错误，从而提高翻译质量。

赛事任务

本次比赛的任务是基于术语词典干预的英文到中文的机器翻译。大赛提供了以下数据：

训练集：中英双语数据，共计14万余对句子。
开发集：英中双语数据，共计1000对句子。
测试集：英中双语数据，共计1000对句子。
术语词典：包含英中对照的2226条术语。

参赛队伍需要使用提供的训练数据，构建并训练多语言机器翻译模型，并基于测试集和术语词典，提供最终的翻译结果。

数据说明

所有文件均为UTF-8编码，训练集、开发集、测试集和术语词典的格式如下：

训练集：每行为一个句对样本，格式如图1所示。

示例：

图1 训练集格式

术语词典格式如图2所示。

图2 术语词典格式

评估指标

对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标BLUE-4进行评价，具体工具使用sacrebleu开源版本。

Baseline

加载和预处理训练数据和术语词典。
定义序列到序列的神经网络模型，包括编码器和解码器。
使用训练数据训练模型，并保存训练好的模型参数。
在测试集上进行推理，并利用术语词典干预翻译结果，确保术语的一致性。

# 安装torchtext
!pip install torchtext

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from torchtext.data.utils import get_tokenizer
from collections import Counter
import random
from torch.utils.data import Subset, DataLoader
import time

# 定义数据集类，处理术语词典
class TranslationDataset(Dataset):
    def __init__(self, filename, terminology):
        self.data = []
        with open(filename, 'r', encoding='utf-8') as f:
            for line in f:
                en, zh = line.strip().split('\t')
                self.data.append((en, zh))
        
        self.terminology = terminology
        
        # 创建词汇表，确保术语词典中的词也被包含在词汇表中
        self.en_tokenizer = get_tokenizer('basic_english')
        self.zh_tokenizer = list  # 使用字符级分词
        
        en_vocab = Counter(self.terminology.keys())

最低0.47元/天解锁文章

会飞的Anthony

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
科大讯飞之基于术语词典干预的机器翻译挑战赛baseline及改进（Datawhale AI 夏令营）

然而，在特定领域或行业中，NMT仍面临一些挑战，尤其是在术语一致性方面。对于术语名词、人名地名等特定词汇，机器翻译经常会出现不准确的结果，这会导致翻译的混淆或歧义。通过引入术语词典，可以纠正这些错误，从而提高翻译质量。参赛队伍需要使用提供的训练数据，构建并训练多语言机器翻译模型，并基于测试集和术语词典，提供最终的翻译结果。对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标BLUE-4进行评价，具体工具使用sacrebleu开源版本。本次比赛的任务是基于术语词典干预的英文到中文的机器翻译。
复制链接

扫一扫