Task1:了解机器翻译 & 理解赛题
1. 首先是了解机器翻译的发展历程,机器翻译的发展可以追溯到20世纪50年代,经历了从基于规则的方法、统计方法到深度学习方法的演变过程,那么当前,机器翻译正朝着更加智能化和个性化方向发展。
2. 数据划分为训练集(Training Set)、开发集(Development Set,验证集,Validation Set)和测试集(Test Set)。训练集用于训练模型,我的理解是让模型通过训练,得到一定的规律,用于后续的验证和测试。开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。如果我们拿到数据后,会对数据进行劈分,一些数据作为训练集,一些数据则作为验证集,还有一部分数据作为测试集,用于模型的评估。
3.赛题解析
3.1 赛题数据
-
训练集:双语数据 - 中英14万余双语句对
-
开发集:英中1000双语句对
-
测试集:英中1000双语句对
-
术语词典:英中2226条
3.2 对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标 BLEU-4 进行评价
3.3 按照速通手册走完流程
3.3.1 准备文件
-
下载模型训练的代码脚本文件
-
训练模型所用到的数据集(赛题指定数据集)
3.3.2 进入赛事提供的魔搭环境,链接:https://modelscope.cn/my/mynotebook/preset
首先新建终端,然后新建一个目录,代码:
mkdir MT
cd MT
mkdir code
意思是新建命名为“MT目录”并进入该目录,然后创建了一个名字为“code
”的子目录
-
通过双击打开
MT/
目录,并拖入dataset
压缩包文件,完成在MT/
目录下上传dataset
压缩包文件 -
双击打开
MT/code/
目录,并拖入task-1
代码文件,完成上传在MT/code/
目录下上传task-1
代码文件 -
解压数据集
复制下面的命令,粘贴在终端处并回车运行
unzip dataset.zip
-
打开代码文件,一键运行代码!得到一个
submit.txt
结果文件
可以注意到修改了N和N_EPOCHS,baseline会有一个显著提升。N:选择数据集的前N个样本进行训练。N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。