NMT十篇必读论文（二）Neural Machine Translation of Rare Words with Subword Units

最新推荐文章于 2024-08-13 08:22:37 发布

ylyyyy

最新推荐文章于 2024-08-13 08:22:37 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/weixin_40240670/article/details/85694520

版权

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文

https://github.com/THUNLP-MT/MT-Reading-List

GitHub地址：https://github.com/rsennrich/subword-nmt

本文介绍了一种处理oov词的方法（out-of-vocabulary words），将未知词表示为其子词的序列

首先，用字符词汇表初始化符号词汇表，并将每个单词表示为一个字符序列，加上一个特殊的词尾符号'·'，这允许我们在翻译后恢复原始的标记。我们迭代地计算所有符号对，并用新符号“AB”替换最频繁对（'A'，'B'）的每次出现。每个合并操作都会生成一个代表字符n-gram的新符号。频繁的字符n-gram（或整个单词）最终合并为单个符号，最终的符号词汇量大小等于初始词汇表的大小，加上合并操作的数量 - 后者是算法的唯一超参数。

作者还附加了一段示例代码，表示其从字典{‘low’, ‘lowest’, ‘newer’, ‘wider’}中学到的合并字对

import re, collections
def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

vocab = {'l o w </w>' : 5, 'l o w e r </w>' : 2,
'n e w e s t </w>':6, 'w i d e s t </w>':3}
num_merges = 10
for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

最终输出的出现频率最高的前十个字对为：

('e', 's')
('es', 't')
('est', '</w>')
('l', 'o')
('lo', 'w')
('n', 'e')
('ne', 'w')
('new', 'est</w>')
('low', '</w>')
('w', 'i')

通过一系列的实验对比，说明了这种方法确实提高了翻译的质量

ylyyyy

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫