微信翻译大型翻车现场?机器翻译到底有哪些不确定性

bb

大数据文摘出品

作者:蒋宝尚、Andy

这两天,微信翻译团队难得的上了次热搜。

bb

事情的发展是这样的。有网友发现,当翻译中带有caixukun的人名拼音时,微信翻译会出现一些奇怪的中文词语,比如?

bb

之后,不仅人名测试开始一发不可收拾,网友们纷纷出动,想要寻找微信翻译的其他彩蛋?

bb

bb

网友们因此大为惊奇,玩得不亦乐乎,以至于这个话题被推上了热搜。

针对相关问题,腾讯微信团队昨天也做出了回应,强调这不是暖心的彩蛋,是翻译引擎在翻译一些没有进行过训练的非正式英文词汇时出现误翻。


bb

文摘菌今天早上进行测试,发现微信团队已经修复了bug,已无误翻的情况,但是,带有人名的句子在翻译中会直接全句copy下来。

bb

微信翻译BUG都是算法的锅?

那么,真的像微信翻译团队所说,这一翻译车祸现场都是算法的锅吗?

文摘菌咨询了自然语言处理领域的两位专家,他们表示,算法上当然也有问题,但是,更大的问题可能在于训练语料。

目前,机器翻译领域主要使用的NMT架构都差不多,一方面问题出在解码器语言模型,使用的语料让它学习到了这些最大概率出现的词。

微信团队在处理的过程中似乎没有对“特殊情况”进行处理,更准确来说,模型没有添加copy机制,无论输出的英文“单词”多么奇形怪状,模型都会遵守最大概率原则对单词进行翻译。

如果添加了特殊词的copy机制,完全可以把无法翻译的单词不进行翻译,直接copy过去。

也就是说,一个聪明的模型应该知道哪些应该翻译,哪些不应该翻译,微信团队做的这只AI显然不够聪明。

从目前微信的修复结果全局copy来看,微信团队似乎已经重新设置了这一机制,对于敏感词“caixukun”或者句式“you are so……”进行原句返回。

另一方面,问题可能更多出现在语料库上,现在业界所做的机器翻译很大程度上靠语料“怼”,只要平行语料数量足够多,质量足够好, 其实一般的系统也可以训练出很好的结果。

之前在知乎上就有一个问题询问微信翻译团队如何设置,根据自称团队成员”LynnCui“的爆料,微信翻译是由微信后台一小撮不到10人的工程师团队从零折腾出来的引擎完成翻译的。

bb

嗯~语料库、算法、不到10人......根据这些线索,文摘菌猜测微信翻译出现这种问题的原因是:训练语料。如果训练语料多来自相对便宜的电影字幕、多语言会议等材料,那么模型最终呈现的翻译内容也会相对应比较“活泼”和“口语化”。

而在面对库中不存在的词,比如caixunkun,算法会自动匹配最经常出现,或者在同语境下最容易匹配的内容,比如形容词“帅哥”、“傻蛋”。

那么,经过这一乌龙事件,微信团队是否会真的重视起翻译产品,然后重金重制语料库呢?我们拭目以待。

谷歌相关事件

其实相关翻译乌龙并不只有微信出现过,翻译领域的先驱谷歌也有过类似的事件。

之前外媒Motherboard有整理来自Reddit论坛的帖子发现,谷歌翻译在学习的过程中可能受到了输入来源的影响,竟将一些意味不明的语句翻译成了如圣经一般的语言。

bb


比如,若用户将翻译设置为从毛利语翻译成英语,之后输入一长串的“dog”(英文意为“狗”),最后会得出这样的结果。

翻译出来的英文大意为:

世界末日时钟在12点3分钟,我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越接近末日和耶稣的回归。

哈佛大学助理教授,研究自然语言处理和计算机翻译的Andrew Rush认为,这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。他表示,在神经机器翻译中,系统训练用了一种语言的大量文本来和另一种语言进行相应翻译,以在两者之间创建模型。但当输入的是无意义内容时,系统就会出现“幻觉性”的输出结果。

由于谷歌这一学习系统的原因,类似的翻译结果层出不穷。据悉,在设置从索马里语言翻译成英语的时候,谷歌有时翻译也会念起“圣经”,比如下面这个例子。

bb

其大意为:

因为上帝的名字是用希伯来语写的,所以用希伯来民族的语言写成。

机器翻译有哪些不确定性?

八卦归八卦,热搜归热搜。吃完瓜,文摘菌还是要跟各位强调,到底如何避免机器翻译的车祸现场。

让我们先从NMT的诞生讲起。

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。这一研究成果的发布可以说是神经机器翻译(NMT)的诞生。虽然在那之后有无数的研究者进行改进模型,但是仍然缺乏对模型的理解。

具体遇到的问题包括:训练和解码过程相当慢;对同一个词的翻译风格可能不一致;在翻译结果上还存在超出词汇表(out-of-vocabulary)的问题;黑箱的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。

bb

NMT和SMT对比

总的来说:不确定性是翻译中的一个核心挑战。我们需要知道不确定性的典型来源是什么?为什么会出现这种问题?

bb


文摘菌在一篇论文《Analyzing Uncertainty in Neural Machine Translation》中找到了这个问题的答案。

论文下载地址:

https://arxiv.org/pdf/1803.00047.pdf

根据论文,在构建翻译的模型的时候,基本上有两种不确定性,一种是任务本身固有的不确定性,另一种是数据收集过程中存在的不确定性。

内在的不确定性

不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”,“of”,或“their”也是可选择的。

除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。

另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。

外在的不确定性

机器翻译系统,特别是模型,需要大量的训练数据才能表现良好。为了节省时间和精力,使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。

在一些加了copy机制的翻译模型中,对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现,即使copy机制很小,也能对模型预测产生较大的影响。

除此之外,这篇论文主要探究了NMT模型的适用性以及搜索。虽然模型在token和句子方面有很好的校准,但是预测的概率分布太广泛。这个问题的原因作者认为取决于函数是否是光滑的。

另外,论文研究了错配的影响,过度的概率分布会把样本在模型中的表现变差,而且。copy机制会更加突出。

福利:微信翻译的隐藏表白神器

其实微信翻译里面不仅仅有过翻车现场,也有一些隐形撩妹彩蛋!文章的最后,文摘菌也为大家送上这波福利。

有细心的网友会发现你在微信聊天里面发送信息【ohh】,翻译内容是:【留在我身边】。

bb


如今这个梗在知乎上广为流传,而且至今微信翻译这个bug还在,微信翻译也至今没有进行补丁,可见微信团队的程序员们不仅技术牛,也是很有爱的一波人呢!

既然没被修补,我们就好好利用这个bug吧!抱着学习的态度,文摘菌从知乎上拔下来了另外一些表白术语,分享给大家。

bb


  • eed:誓言

  • sme:我们

  • ichliebe dich:我爱你

这里应该是触发了德语翻译。

还有一些看起来不像正经文字的缅甸语可以拿去用。

  • ငါသည်သင်တို့၏ရည်းစားဖြစ်ချင်

    我想成为你的男朋友

  • မင်းကိုသတိရနေတယ်

    思念

注:可能在输入框内会出现一连串的问号,只要复制点击发送就好。这是因为手机上一般都不会安装这些小语种的字体,于是微信无法正常显示,出来就是连串的问号,但是微信翻译系统却能支持多种语言,所以当你在微信消息或者朋友圈中长按“翻译”按钮时,微信的翻译系统会自动解码,并翻译为中文。

bb


另一个微信翻译的Bug是利用组成兔子手部的つ,这实际上是一个日语字符。有了它,整句话就会被当成日语来翻译,由于日语语法,疑问句就会因此翻译成肯定句。例如:

  • /つ 想不想...(我、出去浪)

  • /つ 要不要...(吃鸡、去死)

  • /つ 你是不是...(一只猪)

好啦,最后,祝大家表白顺利。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31562039/viewspace-2637570/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31562039/viewspace-2637570/

【6层】一字型框架办公楼(含建筑结构图、计算书) 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
1、资源项目源码均已通过严格测试验证,保证能够正常运行;、 2项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值