Datawhale AI夏令营 Task1

Task1:了解机器翻译 & 理解赛题

1. 首先是了解机器翻译的发展历程,机器翻译的发展可以追溯到20世纪50年代,经历了从基于规则的方法、统计方法到深度学习方法的演变过程,那么当前,机器翻译正朝着更加智能化和个性化方向发展。

2. 数据划分为训练集(Training Set)、开发集(Development Set,验证集,Validation Set)和测试集(Test Set)。训练集用于训练模型,我的理解是让模型通过训练,得到一定的规律,用于后续的验证和测试。开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。如果我们拿到数据后,会对数据进行劈分,一些数据作为训练集,一些数据则作为验证集,还有一部分数据作为测试集,用于模型的评估。

3.赛题解析

3.1 赛题数据

  • 训练集:双语数据 - 中英14万余双语句对

  • 开发集:英中1000双语句对

  • 测试集:英中1000双语句对

  • 术语词典:英中2226条

3.2  对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标 BLEU-4 进行评价

3.3 按照速通手册走完流程

3.3.1 准备文件

  • 下载模型训练的代码脚本文件

  • 训练模型所用到的数据集(赛题指定数据集)

3.3.2 进入赛事提供的魔搭环境,链接:https://modelscope.cn/my/mynotebook/preset

首先新建终端,然后新建一个目录,代码:

mkdir MT

cd MT

mkdir code

意思是新建命名为“MT目录”并进入该目录,然后创建了一个名字为“code”的子目录

  1. 通过双击打开 MT/ 目录,并拖入dataset压缩包文件,完成在MT/目录下上传dataset压缩包文件

  2. 双击打开 MT/code/ 目录,并拖入task-1代码文件,完成上传在MT/code/目录下上传task-1代码文件

  3. 解压数据集

    复制下面的命令,粘贴在终端处并回车运行

    unzip dataset.zip

  4. 打开代码文件,一键运行代码!得到一个submit.txt 结果文件

      可以注意到修改了N和N_EPOCHS,baseline会有一个显著提升。N:选择数据集的前N个样本进行训练。N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值