Datawhale AI 夏令营 第二期 从零入门NLP竞赛 Task1 学习笔记

第一天 7.14 Task1 学习笔记

本次学习成果:学会了基础的baseline

Datawhale从零入门NLP竞赛Task1学习指南文档icon-default.png?t=N7T8https://datawhaler.feishu.cn/wiki/FVs2wAVN5iqHMqk5lW2ckfhAncb

赛事介绍

比赛背景

讲解:孙博辰(主持人)

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

赛事任务

讲解:苏向标(助教)

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果。

数据包括:

训练集:双语数据:中英14万余双语句对、开发集:英中1000双语句对、测试集:英中1000双语句对、术语词典:英中2226条。

注意事项

不允许使用预训练模型

不能使用非官方提供的数据

常用指令

mkdir:新建文件夹

cd:进入文件夹

Unzip *.zip:解压zip文件(等上传成功再解压,注意解压前后的文件夹位置)

shift+空格:自动运行

N:样本个数,可以适当改大

N_EPOCHS:学习次数,可以适当改大

运行逻辑(本人初理解)

传入一个数据路经—构建英文中文的数据对—导入属于词典—使用字符分词—统计—构建词表,具体原理明天开始的Task2会详细解答。

BLEU分数

BLEU指标评估函数: 衡量翻译句子连贯性的评分标准

提分技巧

后续使用Transformer模型,会大幅提高分数

可以在比赛给的数据集中搞数据增强

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值