第一天 7.14 Task1 学习笔记
本次学习成果:学会了基础的baseline
Datawhale从零入门NLP竞赛Task1学习指南文档https://datawhaler.feishu.cn/wiki/FVs2wAVN5iqHMqk5lW2ckfhAncb
赛事介绍
比赛背景
讲解:孙博辰(主持人)
目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。
赛事任务
讲解:苏向标(助教)
基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果。
数据包括:
训练集:双语数据:中英14万余双语句对、开发集:英中1000双语句对、测试集:英中1000双语句对、术语词典:英中2226条。
注意事项
不允许使用预训练模型
不能使用非官方提供的数据
常用指令
mkdir:新建文件夹
cd:进入文件夹
Unzip *.zip:解压zip文件(等上传成功再解压,注意解压前后的文件夹位置)
shift+空格:自动运行
N:样本个数,可以适当改大
N_EPOCHS:学习次数,可以适当改大
运行逻辑(本人初理解)
传入一个数据路经—构建英文中文的数据对—导入属于词典—使用字符分词—统计—构建词表,具体原理明天开始的Task2会详细解答。
BLEU分数
BLEU指标评估函数: 衡量翻译句子连贯性的评分标准
提分技巧
后续使用Transformer模型,会大幅提高分数
可以在比赛给的数据集中搞数据增强