赛事介绍
基于术语词典干预的机器翻译挑战赛
(作为小白以及刚入学的大学生,不具备很强的技术力,只是在照猫画虎之后谈一谈收获)
赛事概要
一、赛事背景
目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。
二、赛事任务
基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果,数据包括:
·训练集:双语数据:中英14万余双语句对
·开发集:英中1000双语句对
·测试集:英中1000双语句对
·术语词典:英中2226条
学习笔记
机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本。
通常我们基于神经网络解决机器翻译任务的流程如下:
在基于Seq2seq的baseline中提及到的方法,导入了事先从外部获取的spacy 用于英文的 tokenizer之后,运行剩下的代码无误之后,开始正式开始训练模型。
在一开始我看到有14w的数据量选择了10w的数据量进行epochs=30的训练,但是在运行了3个小时之后只完成了4个迭代之后发现它在魔搭上无法完成,介于我也不知道其他优化方法的情况下我缩小了训练数据的数量和epoch的数量,降低到3w和15轮
以上为baseline中的提供的代码和部分结果
可以看到,在大约两个小时之后他完成了
但是它得出的结果还是相差甚远,但是介于当时已经是深夜,以及魔搭所提供的单次实例限时10h已经快速到了,没有时间进行别的调整,最后得到的文本大多也是“生命”,“的”这些词,结果并不好,期待进一步的学习以达到更好的成果。
第一次提交0.1678,这一次提交之后是0.7432,虽然也很低,但是算是在学习了罢。
baseline连接
https://datawhaler.feishu.cn/wiki/TObSwHZdFi2y0XktauWcolpcnyf