机器翻译
文章平均质量分 95
机器翻译常用数据集、模型、论文等等
Muasci
keep open
keep real
keep smiling
不要忘记命运掌握在自己的手里,确保做的每一件事,都是自己选择去做的,成为时间这敌人的主宰,成为自己的存在。记得常怀愤怒,并把它转化成热情,选择一切、拥抱一切、坚持一切、把一切视作敌人、战胜一切。<----曾经的发言( ╯□╰ )
展开
-
[机器翻译]——pivot-based zero-shot translation based on fairseq
由于any2en和en2any的同时训练,一方面,encoder端将不同语种编码成国际语(靠近英语?);另一方面,decoder具备把encoder输出翻译成任意一种语言的能力,因此,multilingual translation model具备any2any的翻译能力。由于实际并没有使用除了以英语为中心以外的平行语料进行训练,这种翻译又被称为zero-shot translation。把de的语料翻译成en对翻译得到的en做预处理,并和fr的语料组成平行语料。原创 2022-11-21 18:04:05 · 1007 阅读 · 3 评论 -
[机器翻译]—BLEU值的计算
最近还卡在复现工作的结果这一环节上。具体来说,我使用那篇工作提供的脚本,使用的是fairseq-generate来完成的结果的评估。然后我发现我得到的结果和论文中的结果完全不一致。首先,在预处理阶段,如记一次多语言机器翻译模型的训练所示,我是用moses的tokenizer完成的tokenize,然后又使用moses的lowercase完成的小写化,最后用subword-nmt bpelearn和apply的子词。当然,一方面,小写化不利于模型性能的比较(来自师兄);另一方面,可以使用sentencepi原创 2022-06-17 22:58:45 · 2409 阅读 · 4 评论 -
[机器翻译] 记一次多语言机器翻译模型的训练
前言本文记录笔者复现LaSS工作的步骤,主要记录数据准备的步骤。数据准备实验使用iwslt 14中的8个以英语为中心的语言对,完成16个方向的多语言机器翻译。目前使用该数据集是因为其数据量相对较小,模型训练速度较快,笔者觉得比较适合用于机器翻译上手、比较不同模型性能的优劣。数据集的统计信息如下图所示:下面介绍数据的下载和预处理。假设现在的所在目录为/data/syxu/data/data_store/iwslt14数据下载从https://wit3.fbk.eu/2014-01链接中下载得到2原创 2022-05-30 00:45:48 · 2014 阅读 · 1 评论 -
[机器翻译] multilingual fairseq-preprocess的两种做法
前言fairseq给出的preprocess代码只支持一个语言对的binarize,而笔者在[机器翻译] 记一次多语言机器翻译模型的训练想要对多个语言对同时进行binarize,过程中能够创建一个共享的词典。和师兄交流之后,实现这一结果有两种方式:1. 在学习bpe之后,就会得到一个共享词表,需要对这个词表进行一些修改,然后作为binarize的参数;2. 不使用bpe得到的词表,而是做两次binarize,第一次是为每一个语言对进行一次binarize,然后得到不同的词表。接着将这些词表进行合并,作为原创 2022-05-30 23:57:16 · 1359 阅读 · 0 评论 -
[机器翻译-数据集] 批量获取所有WMT数据(初步解决方案)
前言WMT是机器翻译和机器翻译研究的主要活动。 该会议每年与自然语言处理方面的大型会议联合举行。2006年,第一届机器翻译研讨会在计算语言学协会北美分会年会上举行。2016年,随着神经机器翻译的兴起,WMT成为了一个自己的会议。 机器翻译会议仍然主要被称为WMT[1]。有些机器翻译工作会使用历年WMT公开的数据集作为他们的数据集[2],如下图所示:当笔者想要复现工作结果时,首先需要收集得到这样的数据集。而以WMT13[3]为例。如下图所示,笔者需要手动点击下载上面公开的每一个子数据集,然后汇总得到整原创 2022-05-25 01:48:06 · 5615 阅读 · 11 评论