MT金山竞赛总结

最新推荐文章于 2024-07-29 23:48:49 发布

qq_26686565

最新推荐文章于 2024-07-29 23:48:49 发布

阅读量171

点赞数 2

文章标签： mt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26686565/article/details/87857986

版权

流程：

数据清洗：分析并处理

去除重复数据（原始语料存在6.56%重复，删除重复语料）

删除过长句子对（对源句子与目标句子长度比例进行统计，超过一定阈值时对其删除）

删除漏译严重的句子对（语料有对齐错误，使用giza++对数据对齐获得双语词典。使用双语词典对平行语料进行漏译检测，对于得分较高的删除）

数据增广：

回译（understanding back-translation at scale）【训练了一个由目标语言到源语言的翻译模型，使用原始语料中文部分生成新的平行语料。为了避免新语料与原始语料的重复问题，在解码端加入随机噪声】

交换将原始语料的英文语料的相邻的词交换一遍。增强模型的降噪能力，同时扩充实验数据。

（他们给出的一个结论是两种方法同时使用，效果不如使用一种好）

模型的改进：

分词方法：tensor2tensor默认的分词方式，基于character级别的分词和使用sentencepiece的分词（后两种有1的bleu的提升）

baseline是transformer。

relative transformer【self-attention with relative position representation】 big_model参数下提升了0.3bleu。

基于transformer提出的新的模型结构【layer-attention】big_model参数下提升了0.9bleu。（没有单独使用，用在了rerank）

原始原料有300w的语料包含上下文信息，为此引入了contextual transformer【improving the transformer translation model with document-level context】在base_model条件下有了0.5bleu的提升。

finetune 使用少量语料进行预训练模型的微调。使用的finetune语料是与测试集相似的句子，在现有模型上微调。

rerank

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

qq_26686565 CSDN认证博客专家 CSDN认证企业博客

码龄10年

12: 原创

120万+: 周排名

79万+: 总排名

6万+: 访问

: 等级

622: 积分

6: 粉丝

9: 获赞

4: 评论

59: 收藏

私信

关注

分类专栏

matplotlib 4篇
QNN
Ubuntu 6篇
python 7篇
深度框架编译error 1篇
caffe 2篇
opencv 1篇
linux 3篇
实用工具 2篇
matlab 1篇
c++
pytorch
windows 1篇

最新评论

从透明背景的PNG图读取图像Mask
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
matplotlib绘制折线图
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python os.symlink() 方法
金远春生信工程师: 遇到过没有权限的问题么
Python3.6.5 笔记：字符串中的转义字符\，\n，取消转义r，长字符串，字符串的索引
普通网友: s = "scscsysucsc\n\t 17075...........很多字符" 如何将s变成 rscscsysucsc\n\t 17075...........很多字符
Ubuntu（Linux）更改分区挂载点
new-boy: 您好，我挂载成功了，可是之后开机又复原了，请问这种情况如何处理？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。