从零入门NLP竞赛--基于术语词典干预的机器翻译挑战赛#AI夏令营 #Datawhale #夏令营

Task1:了解机器翻译 & 理解赛题

1.报名赛事:

赛事链接:2024 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn)

报名赛事部分不过多介绍,赛事页面中的赛题概要我们可以了解到该比赛需要我们做什么。

2.下载数据文件

在赛事链接页面的“赛题数据”中,我们可以下载基于术语词典干预的机器翻译挑战赛数据集.zip

3.启动魔塔GPU环境

魔搭链接:首页 · 魔搭社区 (modelscope.cn)

在这里我们可以选用CSDN的方式登录社区。

该社区可以免费领取算力资源,让我们的代码在服务器端高速运行。

登录进入社区之后,在侧边栏点击“我的Notebook”。因为ModelScope社区与阿里云合作,Notebook功能由阿里云提供产品和资源支持。所以可能需要登录阿里云账号进行授权,没有阿里云账号的注册即可。

授权之后,返回该页面,我们就可以从魔搭平台免费实例中白嫖GPU计算资源了。

选择方式二,启动!

稍等然后点击“查看Notebook”,即可进入一个新的GPU环境,GPU环境的右上角显示了我们白嫖的额度。(有时候可能需要过一会儿刷新一下页面)

启动平台资源的时候,有可能需要登录阿里云账号授权。登录一下就可以了。

4.baseline环境配置

此步骤主要是上传数据和代码文件,然后一键运行

点击如下模块,新建终端 。

输入如下指令,并回车,新建目录

mkdir MT

cd MT

mkdir code

创建MT目录后如下图左边栏显示,进入MT目录中。

将zip文件直接拖入MT目录下,与code文件夹同目录。

如图所示,正在上传。

同理,将.ipynb可执行python文件拖入code文件夹中。

在终端MT目录下中输入如下指令,解压刚刚上传的数据文件。

unzip dataset.zip

如图所示,解压出来一堆数据文件。

此时已经完成了代码上传和数据上传的工作,即可在GPU环境资源下运行了。

5.baseline代码运行! 

打开code文件夹下刚刚上传的代码文件,一键运行代码!(10分钟左右)

点击Restart按钮

运行结果如下图所示,结果以submit.txt文件的方式出现在dataset文件中,可以将其下载到本地。

在结束开发后,记得及时保存环境现场。

魔搭Notebook会在没有后续操作的1小时后自动关闭,仅保存 notebook 文件。

如果你有其他任何需要保存的文件,请提前下载保存到本地。

在确定所有东西已经备份后,最好主动关闭实例。(如上图右上角所示)

(如果没有【关闭实例】按钮,可以回到魔搭Notebook页(点击即可跳转)进行实例关闭)

6.提交运行结果

提交运行结果文件,拿下第一个分数。

在平台2024 iFLYTEK A.I.开发者大赛-讯飞开放平台 (xfyun.cn)的“提交结果”栏中选择文件,上传刚刚运行的submit.txt文件,即可提交运行结果。

平台的评测时间大概是3分钟左右,这是一个测试案例,我运行的结果submit.txt,最终取得的评分是0.2313分。不过熟悉了开发与比赛的流程,以及GPU算力平台的使用,这是一个很好的开端。

测试案例中,只使用了部分数据进行训练,后续可以自己调整训练数据和epochs继续上分!

🎉恭喜你完成了第一阶段的学习与测评,拿下了属于自己的第一个分数!

Task2:从baseline代码详解入门深度学习

1.环境配置

2.数据预处理

3.模型训练

4.翻译质量评价

🎉🎉

Task3:基于Transformer解决机器翻译任务

1.Transformer介绍

1.1嵌入表示层

1.2注意力层

1.3前馈层

1.4残差连接与层归一化

1.5编码器和解码器结构

2.依据Task2的baseline修改代码

3.其他上分技巧

🎉🎉🎉

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值