开源 | IBM、哈佛共同研发:Seq2Seq模型可视化工具

640?wx_fmt=jpeg


作者 | Ben Dickson

译者 | 刘旭坤

编辑 | Jane

出品 | AI科技大本营


近年来随着深度学习和神经网络技术的发展,机器翻译也取得了长足的进步。神经网络结构越来越复杂,但我们始终无法解释内部发生了什么,“黑箱问题”一直困扰着我们。我们不清楚程序在翻译过程中如何进行决策,所以当翻译出错时也很难改正。随着深度学习在各行各业中的广泛应用,深度学习的不可解释性已经成为其面临的严峻挑战之一。


今年,在德国柏林举办的 IEEE VAST 可视化分析大会上,来自 IBM 和哈佛大学的研究人员展示了为解决翻译中的 AI 黑盒问题所开发的调试工具。这款名为 Seq2Seq-Vis 的工具能将人工智能的翻译过程进行可视化,方便开发人员对模型进行调试。


Seq2Seq-Vis 主要针对机器翻译中最常用的 Seq2Seq 模型。这一模型能够将任意长度的序列,也就是原文的句子,映射到目标语言。除了机器翻译任务,在自动问答、文本摘要等任务中也都主要应用 Seq2Seq 模型。


简单来说,Seq2Seq 模型在机器翻译中的工作原理就是把源语言映射到目标语言,得到了目标语言的序列(也就是初步翻译完的句子)后再进行优化,保证语法和语义上的正确。虽然使用神经网路模型后,机器翻译的结果得到了很大的提升,但同时也非常复杂。


可视化机器翻译的过程


研究人员称研发 Seq2Seq-Vis 的初衷是想有一个类似于基于规则的传统翻译软件中的规则表,这样开发人员可以通过在规则表中对照得到错误信息就可以很简单地修改模型。



Seq2Seq-Vis.io 网站上给出了一个从德语到英语的演示程序。德语的“die längsten reisen fangen an , wenn es auf den straßen dunkel wird.”翻译成英语应该是“The longest journeys begin when it gets dark in the streets.”,但被机器翻译成了“the longest travel begins when it gets to the streets.”Seq2Seq-Vis 以可视化的方式呈现出了序列到序列模型翻译的每一步,这样用户就能像查找规则表一样来找出机器翻译翻译错误的原因。


640?wx_fmt=png


Seq2Seq-Vis 另一个很有用的功能是它能找出与某个字词相关的训练集,这也是解决 AI 黑盒问题的一大难点。其实一个机器学习模型除了训练集一无所知,所以要解决机器翻译中的错误最终都要回到训练集中去。


640?wx_fmt=png


将机器翻译过程可视化,用户就能确定翻译出错到底是编码器解码器使用的训练样本出了错还是注意力模型的设置或者其他环节出错了。


更正序列到序列模型


Seq2Seq-Vis 并不是第一个试图解决 AI 黑盒问题的工具,之前有很多大公司和研究机构都有进行尝试,甚至 IBM 自己也在这上面下过功夫。事实上,很多类似的工具需要的信息比 Seq2Seq-Vis 更少,比如有的工具只需要神经网络的输出就可以,而 Seq2Seq-Vis 还需要训练集,整个模型的架构和设置。但 Seq2Seq-Vis 却是第一个既能可视化模型的决策过程也能让开发人员直接修改模型的工具。开发人员可以通过可视化的方式对模型的决策过程进行修改并观察反馈来实现探索式的调试,比如修改输出序列的单词或者对注意力模型的配置进行修改。


640?wx_fmt=png


听起来是不是很酷,不过 Seq2Seq-Vis 的目标群体是模型架构师或工程师而非机器翻译的终端用户。因为要让这一工具真正发挥作用需要用户对“序列到序列”模型有较为深入的了解。虽然目标这一工具还只是应用在IBM的内部项目中,但它是开源的,所以大家都可以来试试。


  • 项目地址:http://seq2seq-vis.io

  • Github地址:https://github.com/HendrikStrobelt/Seq2Seq-Vis

  • 原文地址: https://venturebeat.com/2018/11/01/ibm-harvard-develop-tool-to-tackle-black-box-problem-in-ai-translation/


本文由AI科技大本营翻译,转载请联系微信1092722531


2018 中国大数据技术大会

BDTC 2018


BDTC 2018中国大数据技术大会携主题“大数据新应用”再度强势来袭。本次大会由华东师范大学副校长、教授周傲英,百度商业智能实验室主任熊辉,阿里巴巴副总裁李飞飞三位会议主席对大会内容把关,多位两院院士参与指导,由最了解行业痛点的一线从业者为同行打造。


八折优惠仅最后一天,扫描二维码一键抢票,预定属于你的超强干货。点击「阅读原文」查看大会详情。


640?wx_fmt=png


推荐阅读

程序员的江湖 务必掌握这些黑话!

高达800万次下载量的npm包被黑客篡改了代码,你的设备或正成为挖矿机

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
去年,谷歌发布了 Google Neural Machine Translation (GNMT),即谷歌神经机器翻译,一个 sequence-to-sequence (“seq2seq”) 的模型。现在,它已经用于谷歌翻译的产品系统。   虽然消费者感受到的提升并不十分明显,谷歌宣称,GNMT 对翻译质量带来了巨大飞跃。   但谷歌想做的显然不止于此。其在官方博客表示:“由于外部研究人员无法获取训练这些模型的框架,GNMT 的影响力受到了束缚。”   如何把该技术的影响力最大化?答案只有一个——开源。   因而,谷歌于昨晚发布了 tf-seq2seq —— 基于 TensorFlow 的 seq2seq 框架。谷歌表示,它使开发者试验 seq2seq 模型变得更方便,更容易达到一流的效果。另外,tf-seq2seq 的代码库很干净并且模块化,保留了全部的测试覆盖,并把所有功能写入文件。   该框架支持标准 seq2seq 模型的多种配置,比如编码器/解码器的深度、注意力机制(attention mechanism)、RNN 单元类型以及 beam size。这样的多功能性,能帮助研究人员找到最优的超参数,也使它超过了其他框架。详情请参考谷歌论文《Massive Exploration of Neural Machine Translation Architectures》。   上图所示,是一个从中文到英文的 seq2seq 翻译模型。每一个时间步骤,编码器接收一个汉字以及它的上一个状态(黑色箭头),然后生成输出矢量(蓝色箭头)。下一步,解码器一个词一个词地生成英语翻译。在每一个时间步骤,解码器接收上一个字词、上一个状态、所有编码器的加权输出和,以生成下一个英语词汇。雷锋网(公众号:雷锋网)提醒,在谷歌的执行中,他们使用 wordpieces 来处理生僻字词。   据雷锋网了解,除了机器翻译,tf-seq2seq 还能被应用到其他 sequence-to-sequence 任务上;即任何给定输入顺序、需要学习输出顺序的任务。这包括 machine summarization、图像抓取、语音识别、对话建模。谷歌自承,在设计该框架时可以说是十分地仔细,才能维持这个层次的广适性,并提供人性化的教程、预处理数据以及其他的机器翻译功能。   谷歌在博客表示: “我们希望,你会用 tf-seq2seq 来加速(或起步)你的深度学习研究。我们欢迎你对 GitHub 资源库的贡献。有一系列公开的问题需要你的帮助!”   GitHub 地址:https://github.com/google/seq2seq   GitHub 资源库:https://google.github.io/seq2seq/nmt/ 标签:tensorflow  seq2seq  谷歌  机器学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值