【Datawhale AI 夏令营】基于术语词典干预的机器翻译挑战赛——task02】

最新推荐文章于 2024-07-17 23:22:12 发布

m0_73875592

最新推荐文章于 2024-07-17 23:22:12 发布

阅读量145

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/m0_73875592/article/details/140505978

版权

Task02

第二次训练使用了第二份代码来运行，训练了两次但效果不佳哈哈哈，分数现在还没有评出来。对于我这种只是大概知道要划分训练集测试集的崽来讲，具体训练的方法还是晓得哈哈哈，于是这份笔记补充了一些资料。

首先是需要额外安装的几个包

PyTorch 的一个扩展库，专门用于自然语言处理 (NLP) 任务。提供了一组工具和数据处理流水线，用于处理文本数据，构建词汇表，加载预训练的词嵌入，以及创建和操作文本数据集。

数据加载和预处理：

词汇表：

嵌入表示：

数据集和迭代器：

是一个非常流行的中文分词工具库，它能够高效地将中文文本切分成词语。由于中文没有明显的词边界，分词是自然语言处理 (NLP) 中的一个重要步骤。Jieba 提供了以下主要功能：

我们该次大赛的评分规则似乎就是基于BLUE来的

随后就是数据的预处理，清洗工作，训练验证模型。这是之前照猫画虎的一个图像识别系统

对于数据量较大的模型（样本数量达到万级以上），对训练集，验证集，测试集的划分一般为为98：1：1，而万级以下数据的训练，最典型的划分比例是6：2：2。划分数据如下图所示。

循环神经网络、卷积神经网络、自注意力机制等都是模型常用的结构。

关注