datawhale AI 夏令营 task2笔记

muinai

于 2024-07-17 20:53:53 发布

阅读量271

点赞数 4

文章标签：人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_81122394/article/details/140504229

版权

赛事介绍

基于术语词典干预的机器翻译挑战赛

（作为小白以及刚入学的大学生，不具备很强的技术力，只是在照猫画虎之后谈一谈收获）

赛事概要

一、赛事背景

目前神经机器翻译技术已经取得了很大的突破，但在特定领域或行业中，由于机器翻译难以保证术语的一致性，导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果，可以通过术语词典进行纠正，避免了混淆或歧义，最大限度提高翻译质量。

二、赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果，数据包括：

·训练集：双语数据：中英14万余双语句对

·开发集：英中1000双语句对

·测试集：英中1000双语句对

·术语词典：英中2226条

学习笔记

机器翻译（Machine Translation，简称MT）是自然语言处理领域的一个重要分支，其目标是将一种语言的文本自动转换为另一种语言的文本。

通常我们基于神经网络解决机器翻译任务的流程如下：

在基于Seq2seq的baseline中提及到的方法，导入了事先从外部获取的spacy 用于英文的 tokenizer之后，运行剩下的代码无误之后，开始正式开始训练模型。

在一开始我看到有14w的数据量选择了10w的数据量进行epochs=30的训练，但是在运行了3个小时之后只完成了4个迭代之后发现它在魔搭上无法完成，介于我也不知道其他优化方法的情况下我缩小了训练数据的数量和epoch的数量，降低到3w和15轮

以上为baseline中的提供的代码和部分结果

可以看到，在大约两个小时之后他完成了

但是它得出的结果还是相差甚远，但是介于当时已经是深夜，以及魔搭所提供的单次实例限时10h已经快速到了，没有时间进行别的调整，最后得到的文本大多也是“生命”，“的”这些词，结果并不好，期待进一步的学习以达到更好的成果。

第一次提交0.1678，这一次提交之后是0.7432，虽然也很低，但是算是在学习了罢。

baseline连接

https://datawhaler.feishu.cn/wiki/TObSwHZdFi2y0XktauWcolpcnyf

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
datawhale AI 夏令营 task2笔记

基于术语词典干预的机器翻译挑战赛（作为小白以及刚入学的大学生，不具备很强的技术力，只是在照猫画虎之后谈一谈收获）赛事概要。
复制链接

扫一扫

muinai CSDN认证博客专家 CSDN认证企业博客

码龄1年

2: 原创

116万+: 周排名

17万+: 总排名

1300: 访问

: 等级

52: 积分

20: 粉丝

32: 获赞

0: 评论

37: 收藏

私信

关注

热门文章

最新评论

datawhale AI 夏令营 task2笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

datawhale AI 夏令营 NLP task3 学习笔记

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。