【Datawhale AI夏令营】NLP入门 学习笔记 TASK1:跑通baseline,了解机器翻译,理解赛题

实践步骤

step1:启动魔搭GPU环境

step2:运行 baseline

  1. 上传dataset和baseline代码文件,解压dataset,注意目录关系。

    如果目录关系出错,可能需要修改目录关系、清理浏览器缓存或重新打开魔搭环境。

  1. 通过工具栏图标或快捷键运行代码。

  2. 赛事界面提交 submit.txt 得到分数

step3:改进 baseline

尝试调整参数N和N_EPOCHS,两者作用是将数据集中前N个样本抓取训练了N_EPOCHS轮。

N:选择数据集的前N个样本进行训练。
N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。

知识点

一、机器翻译

  • 机器翻译(Machine Translation,MT)是自然语言处理的一个分支

  • 基于规则的方法 -> 基于统计的方法 -> 深度学习方法

  • 基于神经网络机器翻译(2010s-present)使用深度神经网络模型,如长短期记忆网络(LSTM)和 Transformer,自动学习源语言和目标语言之间的映射关系,是当前机器翻译领域的主流方法。

二、数据划分

  • 通常划分为三个部分

    • 训练集(Training Set)用于训练模型,学习数据内在规律

    • 开发集/验证集(Development/Validation Set)用于调整超参数、选择模型架构以及防止过拟合

    • 测试集(Test Set)用于最终评估模型的性能

  • 划分的主要目的是为了评估模型的性能并防止过拟合,保证模型的泛化能力

三、赛题解析

  • 赛事背景

    目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

  • 赛事任务

    基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果

  • 赛题数据

    • 训练集:双语数据 - 中英14万余双语句对

    • 开发集:英中1000双语句对

    • 测试集:英中1000双语句对

    • 术语词典:英中2226条

  • 评估指标

    采用自动评价指标 BLEU-4 进行评价,具体工具使用 sacrebleu开源版本

四、关于 NLP 和 大语言模型

  • 自然语言处理(Natural Language Processing,NLP)

  • NLP 任务大致分为四类

    • 序列标注(如中文分词,词性标注,命名实体识别,语义角色标注等,要求对句子中每个单词都要给出一个分类类别)

    • 分类任务(总体给出一个分类类别)

    • 句子关系判断

    • 生成式任务

相关资源

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值