基于术语词典干预的机器翻译挑战赛(NLP竞赛)

Task01学习笔记

入门并实践 深度学习、解决NLP问题、机器翻译

赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果

什么是 BLUE-4 ?

BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一种对生成语句进行评估的指标。BLEU 评分是由Kishore Papineni等人2002年的论文中提出的。《BLEU: a Method for Automatic Evaluation of Machine Translation》icon-default.png?t=N7T8http://www.aclweb.org/anthology/P02-1040.pdf

在机器翻译领域,BLEU(Bilingual Evaluation Understudy)是一种常用的自动评价指标,用于衡量计算机生成的翻译与一组参考译文之间的相似度。这个指标特别关注 n-grams(连续的n个词)的精确匹配,可以被认为是对翻译准确性和流利度的一种统计估计。计算BLUE分数时,首先会统计生成文本中n-grams的频率,然后将这些频率与参考文本中的n-grams进行比较。如果生成的翻译中包含的n-grams与参考译文中出现的相同,则认为是匹配的。最终的BLUE分数是一个介于0到1之间的数值,其中1表示与参考译文完美匹配,而0则表示完全没有匹配。

BLUE-4 特别指的是在计算时考虑四元组(即连续四个词)的匹配情况。

BLUE 评估指标的特点:

  • 优点:计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。

  • 缺点:不考虑语言表达(语法)上的准确性;测评精度会受常用词的干扰;短译句的测评精度有时会较高;没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。

除了翻译之外,BLEU评分结合深度学习方法可应用于其他的语言生成问题,例如:语言生成、图片标题生成、文本摘要、语音识别。

从零入门AI竞赛(NLP方向)-学习规划表(7天)

基于术语词典干预的机器翻译挑战赛

Task

Task 描述

相关知识点

学习文件&链接

学习安排

Task 1

7.14

目标:跑通baseline,体验NLP模型解决问题的流程,基本了解赛题要求,理解赛题场景

难度:非常低

推荐步骤:

  1. 根据文档跑通提交并拿下第一个分数

  2. 了解赛题提交的格式

  3. 模型训练相关的数据格式

  4. 打卡第一个分数,尽量写笔记

  1. 机器翻译任务的发展历程

  2. 模型训练的数据格式

  1. 从零入门NLP竞赛

  2. Task1知识点文档

  3. Task1 代码 & 数据集文件

开营直播

2024/7/14 21:00

Task 2

7.15~7.17

目标:深入理解赛题,精读baseline代码,入门机器学习代码实现

难度:⭐️⭐️

步骤:

  1. 深入理解赛题背景

  2. 通过代码实践理解赛题数据

  3. 了解baseline实现思路

  4. 写笔记并打卡

  1. 赛题深入解析:赛题背景

  2. 赛题数据分析

  3. 基于seq2seq的机器翻译任务的代码实现

  1. Task2知识点文档

  2. Task2 代码文件

baseline精讲直播

2024/7/15 19:00

Task 3

7.18~7.20

目标:进阶Transformer模型完成任务,入门深度学习

难度:⭐️⭐️⭐️

步骤:

  1. 学习Transformer知识点

  2. 理解代码模块

  3. 写笔记并打卡

  1. Transformer架构

  2. Transformer在机器翻译上的应用

  1. Task3知识点文档

  2. Task3 代码文件

进阶分享直播

2024/7/18 19:00

Task 4

(可选)

目标:通过代码实践入门大模型处理机器翻译

难度:⭐️⭐️

步骤:

  1. 了解当前SOTA大模型

  2. 调用大模型API(讯飞)进行机器翻译任务

  1. Task4知识点文档

  • 19
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值