字子序列中英翻译模型（五笔特征）

最新推荐文章于 2023-07-25 16:56:26 发布

haimizhao

最新推荐文章于 2023-07-25 16:56:26 发布

阅读量365

点赞数

分类专栏：机器学习与自然语言处理文章标签：深度学习自然语言处理机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haimizhao/article/details/107689464

版权

机器学习与自然语言处理专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章：Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding

主要思想：将五笔作为中文字模型特征用于翻译模型

背景：有人使用了词子序列（sub-word）作为基本单位，用以规避典外词汇（Out Of Vocabulary, OOV）带来的问题，缩小了词表，并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中，取得了优于字模型（character-level models）的效果。将二者思想结合起来，就有了这篇文章。

特征提取：在五笔输入法中，每个字或词映射为不超过5个（一般是4个）符号编码，比如“毫无理由”，逐字键入，应当映射为毫ypt无fq理gj由mh，如下图

毫ypt ypt

无fq fq
理gj gj
由mh mh
五笔的键位分布参考
https://www.52wubi.com/wbbmcx/search.php

但文章并没有将字的五笔输入序列直接作为特征，而是采用了基于共现符号对的压缩编码方式BPE（Byte-pair encoding）将之再编码。

BPE的基本思想是这样的，对于一些序列，比如字母序列-词，将最高频的连续共现对用新符号替代。比如对具有4个序列的语料：low, lowest, newer, wider进行替代合并的规则衍变过程为：
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示词尾，这样，合并的结果就是：
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)

用该算法对“毫无理由”的五笔特征（ypt, fq, gj, mh）进行处理，得到：y@@，pt，fq，gj，mh，四个序列变成了5个序列，嗯，文章没有解释这两个@是怎么来的。

翻译模型的结构是经典的RNN+Attention：

经典神经翻译模型
评估指标采用了机器翻译普遍采用的BLEU。文章的方法（wubi）在测试集上取得了优于其他方法的结果，尽管在验证集（开发集dev）上的结果有时差于其他模型。

在这里插入图片描述

wubi右边的数字代表这次结果用的BPE次数。

文章选取了不同BPE处理次数的结果进行比较，当处理次数（也即图中的词表大小）在2000-3000时，结果是比较好的：

在这里插入图片描述
其他：
比较了不同切词算法对结果的影响，总的来说，以词为单位的模型，切词质量影响较大，质量越高，效果越好。

从训练时间上来看，全字模型时间最长，其次是字子序列（文章的模型），最快的是基于词的模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字子序列中英翻译模型（五笔特征）

文章：Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding主要思想：将五笔作为中文字模型特征用于翻译模型背景：有人使用了词子序列（sub-word）作为基本单位，用以规避典外词汇（Out Of Vocabulary, OOV）带来的问题，缩小了词表，并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中，取得了优于字模型（character-level models）的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。