Datawhale AI夏令营 Task1

最新推荐文章于 2024-08-13 23:05:14 发布

m0_51832845

最新推荐文章于 2024-08-13 23:05:14 发布

阅读量202

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_51832845/article/details/140451603

版权

Task1：了解机器翻译 & 理解赛题

1. 首先是了解机器翻译的发展历程，机器翻译的发展可以追溯到20世纪50年代，经历了从基于规则的方法、统计方法到深度学习方法的演变过程，那么当前，机器翻译正朝着更加智能化和个性化方向发展。

2. 数据划分为训练集（Training Set）、开发集（Development Set，验证集，Validation Set）和测试集（Test Set）。训练集用于训练模型，我的理解是让模型通过训练，得到一定的规律，用于后续的验证和测试。开发集用于在模型训练过程中调整超参数、选择模型架构以及防止过拟合。如果我们拿到数据后，会对数据进行劈分，一些数据作为训练集，一些数据则作为验证集，还有一部分数据作为测试集，用于模型的评估。

3.赛题解析

3.1 赛题数据

训练集：双语数据 - 中英14万余双语句对
开发集：英中1000双语句对
测试集：英中1000双语句对
术语词典：英中2226条

3.2 对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标 BLEU-4 进行评价

3.3 按照速通手册走完流程

3.3.1 准备文件

下载模型训练的代码脚本文件
训练模型所用到的数据集(赛题指定数据集)

3.3.2 进入赛事提供的魔搭环境，链接：https://modelscope.cn/my/mynotebook/preset

首先新建终端，然后新建一个目录，代码：

mkdir MT

cd MT

mkdir code

意思是新建命名为“MT目录”并进入该目录，然后创建了一个名字为“code”的子目录

通过双击打开 MT/ 目录，并拖入dataset压缩包文件，完成在MT/目录下上传dataset压缩包文件
双击打开 MT/code/ 目录，并拖入task-1代码文件，完成上传在MT/code/目录下上传task-1代码文件
解压数据集

复制下面的命令，粘贴在终端处并回车运行

unzip dataset.zip
打开代码文件，一键运行代码！得到一个submit.txt 结果文件

可以注意到修改了N和N_EPOCHS，baseline会有一个显著提升。N：选择数据集的前N个样本进行训练。N_EPOCHS：一次epoch是指将所有数据训练一遍的次数。

m0_51832845

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Datawhale AI夏令营 Task1

训练集用于训练模型，我的理解是让模型通过训练，得到一定的规律，用于后续的验证和测试。如果我们拿到数据后，会对数据进行劈分，一些数据作为训练集，一些数据则作为验证集，还有一部分数据作为测试集，用于模型的评估。1. 首先是了解机器翻译的发展历程，机器翻译的发展可以追溯到20世纪50年代，经历了从基于规则的方法、统计方法到深度学习方法的演变过程，那么当前，机器翻译正朝着更加智能化和个性化方向发展。3.2 对于参赛队伍提交的测试集翻译结果文件，采用自动评价指标。3.3 按照速通手册走完流程。
复制链接

扫一扫