【Datawhale AI夏令营】NLP入门学习笔记 TASK1：跑通baseline，了解机器翻译，理解赛题

最新推荐文章于 2024-07-15 19:14:18 发布

citi255

最新推荐文章于 2024-07-15 19:14:18 发布

阅读量479

点赞数 3

分类专栏： Datawhale AI夏令营文章标签：人工智能自然语言处理学习

本文链接：https://blog.csdn.net/m0_74063316/article/details/140425545

版权

1 篇文章 0 订阅

订阅专栏

实践步骤

尝试调整参数N和N_EPOCHS，两者作用是将数据集中前N个样本抓取训练了N_EPOCHS轮。

N：选择数据集的前N个样本进行训练。
N_EPOCHS：一次epoch是指将所有数据训练一遍的次数。

机器翻译（Machine Translation，MT）是自然语言处理的一个分支
基于规则的方法 -> 基于统计的方法 -> 深度学习方法
基于神经网络机器翻译（2010s-present）使用深度神经网络模型，如长短期记忆网络（LSTM）和 Transformer，自动学习源语言和目标语言之间的映射关系，是当前机器翻译领域的主流方法。

通常划分为三个部分
- 训练集（Training Set）用于训练模型，学习数据内在规律
- 开发集/验证集（Development/Validation Set）用于调整超参数、选择模型架构以及防止过拟合
- 测试集（Test Set）用于最终评估模型的性能

赛事背景

目前神经机器翻译技术已经取得了很大的突破，但在特定领域或行业中，由于机器翻译难以保证术语的一致性，导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果，可以通过术语词典进行纠正，避免了混淆或歧义，最大限度提高翻译质量。
赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果
赛题数据
- 训练集：双语数据 - 中英14万余双语句对
- 开发集：英中1000双语句对
- 测试集：英中1000双语句对
- 术语词典：英中2226条