NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介

最新推荐文章于 2021-09-02 14:33:09 发布

Omni-Space

最新推荐文章于 2021-09-02 14:33:09 发布

阅读量1.4k

点赞数

分类专栏： Deep Learning NIPS 2016 文章标签： Deep Learning NIPS 2016 Dual Learning Review Network VQA

Deep Learning 同时被 2 个专栏收录

137 篇文章 3 订阅

订阅专栏

NIPS 2016

2 篇文章 0 订阅

订阅专栏

NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介

原创 2016-12-12小 S 程序媛的日常程序媛的日常

过去一周，最受关注的学术界盛事就是在美丽的巴塞罗那召开的 NIPS 2016 大会啦。每年 NIPS 的会议上，都会有非常重量级的 tutorial 和工作发表。今天给大家推荐和分享的是如下几篇论文：

Value Iteration Networks (NIPS 2016 Best Paper)
Dual Learning for Machine Translation (NIPS 2016)
Review Networks for Caption Generation (NIPS 2016)
Visual Question Answering with Question Representation Update (QRU) (NIPS 2016)
Gated-Attention Readers for Text Comprehension (ICLR 2017 submission)

VIN

Value Iteration Networks (NIPS 2016 Best Paper)

作为今年的 NIPS 2016 Best Paper 得主，相信大家之前都已经被各种文案刷屏啦。实至名归的一篇工作！其背后的 idea 很巧妙。其 idea 的主要 motivation 来自两个观察，第一个观察就是认为 planning 应该作为 policy 中的一个重要组成部分，所以应该把 planning 的能力，作为 policy representation learning 过程中的一部分。然后第二个观察，就是最巧妙的了，把 classic value iteration 的公式几乎完美地和 ConvNet match 在了一起。

第一个观察带来的好处是，他们认为，加入 planning 后，可以提高 RL model 的泛化能力。为此，他们认为应该在模型，从 observation 到 reactive policy 之间加入 planning module，也就是这个 Value Iteration Networks (VIN) 了。如下图：

第二个观察就是 VI 公式和 ConvNet 之间的映射。经典的 VI 公式是这样的：

于是乎，这篇论文的 VI module 是这样设计的：把 R(s,a) 作为 ConvNet 的输入，所以 R(s,a) 被作者称为“reward image”，变成了 ConvNet 的一个多层的 input image。然后，就像这幅图一样：

有了 R(s,a) 作为 ConvNet 的 input 后，discounted transition probabilities P 就是 ConvNet 的 weights 了。max_Q 就对应了 max pooling。最后多次 stack + re-feed，就可以实现 K recurrence 的 iteration——也就是 Value interation 了。用一张 slides 图来总结：

在作者给出的 slides 里，作者还提到，很多时候，我们只需要用一部分 policy representation（planning 和 observation）就足够得到我们的 action 了。所以他们也引入了 attention，来提高效率：

Dual-NMT

Dual Learning for Machine Translation (NIPS 2016)

MSRA 大力宣传的一篇论文。其背后的 idea 非常 straightforward，就是——把 Machine Translation 看成两个 agents，agent A 和 agent B 互相教对方语言。这里的假设是，agent A 只懂自己的语言 language A，agent B 只懂自己的语言 language B。agent A 说的一句 x_A，经过一个 A->B 的（weak）MT 模型（这其实是一个 noisy channel），得到一个 x_A’。这时候 agent B 虽然得到了一句 x_A’，但其实并不知道 agent A 本来是想讲啥（语义），只能通过自己对于 language B 的掌握，来衡量一下 x_A’ 是否是合法的一句 language B 里的话（语法）。然后 agent B 也可以通过同样的方式再把这句话“翻译”回 agent A（又是一个 noisy channel），于是 agent A 就可以把再次获得的 x_A’’，和它之前原始的那句 x_A 对照，来评价 reconstruction 的质量。

对于一个真正的 RL 下的这个框架来说，我们拥有的其实是两个大量的 monolingual 的语料 A 和 B，且 A、B 不需要 aligned。同时，我们有两个 weak MT model，也就是 A->B 和 B->A。再同时，我们有两个非常好的 language model，LM_A 和 LM_B，因为训练 LM 只需要 monolingual 的语料，所以 LM 很容易获得。然后刚才说的 x_A -> x_A’，agent B 可以给出一个针对 x_A’ 的 reward，即 LM_B(x_A’)。而 x_A’ -> x_A’’，agent A 则可以针对 reconstruction 质量，也给出一个 reward。这俩 reward 通过现象组合，再利用 policy gradient，就可以求解了。

最后来看一下一些实验结果：

按照作者的说法，这种 dual task 还是非常多的：Actually, many AI tasks are naturally in dual form, for example, speech recognition versus text to speech, image caption versus image generation, question answering versus question generation (e.g., Jeopardy!), search (matching queries to documents) versus keyword extraction (extracting
keywords/queries for documents), so on and so forth. 但对此我觉得倒是值得 question。

同时，按照作者的说法，这个设定也不局限于 dual，不需要于两个 agent，关键在于发现 close-loop。Actually, our key idea is to form a closed loop so that we can extract feedback signals by comparing the original input data with the final output data. Therefore, if more than two associated tasks can form a closed loop, we can apply our technology to improve the model in each task from unlabeled data. 其实这里的意思就是，关键是发现一个 transitive 的过程，让 reward 能传递下去，而不是在某个时候 fix 或者说 block 住。

另外，关于 reconstruction 应用到 NLP 的各种 task 的思想，其实也很常见。这篇利用 dual learning 建模 reconstruction 是非常巧妙和漂亮的一个工作。除此之外，在 MT 领域，前面还有诺亚方舟的《Neural Machine Translation with Reconstruction》和来自 Google 的《Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation》的两篇论文。在其他任务上，比如 response retrieval 和 generation 上，也有工作把 reconstruction loss 作为额外的 objective，线性结合进去，这个思想就更直观一点：想让机器学会说自己的话，得先让它能鹦鹉学舌吧。reconstruction loss 的利用，在 summarization 等任务上也屡见不鲜。大家可以自己多多挖掘。

Review Networks

Review Networks for Caption Generation (NIPS 2016)

这篇论文来自 Ruslan 教授的组，Ruslan 教授在 attention 和 generative models 一直都非常有 insight。在 soft attention 开始火起来时，他便有 hard + soft attention 结合的 wake-sleep 算法。这篇 NIPS 2016 的 Review Networks 论文，依然是一篇改进 attention 的工作。同时，这种改进既能 fit NLP 的 attention，也能 fit 进 Vision 里的 visual attention。

具体来说，我们在经典的 attention-based seq2seq 模型里，attention 都是用来给 decoder 的。也就是说，我们把 encoder 里的东西，通过 attention，得到某种 representation，这种 representation 经常是 soft attention 中的加权和，所以也会被称为一种 summarization——对 encoder 的 input 的 summarization。这篇工作认为，这种加权和还是比较 local，关注的会是比较局部的信息——他们希望能增加对于全局信息的关注。

为此，作者的方式就是增加了一个 review module，即题目中的 review networks，这样建模后，我们上文提到的经典 attention 就是他们提出的框架下的一个特例。

Review Networks 如上图。通过左右对比，就更容易理解这个 Review Networks 的机制。它相当于把原来求 attention 的部分，替换成了一个 LSTM 网络，来求得更 compact 更 global 的 attention——作者讲这种 attention 得到的 encoded representation 称为 fact。这个 Review Network 在 image captioning 的实验结果看起来很不错：

这里的 Disc Sup 全称是 discriminative supervision，也是作者认为有了 Review Network 后，得到的那些 facts 的另一个 benefit。即，可以 discrminatively 的判断，是否 facts 得到的 words 包含在 caption 里。这种 Disc Sup 可以通过 multi-task learning 的框架来帮助提高训练效果。

QRU

Visual Question Answering with Question Representation Update (QRU) (NIPS 2016)

VQA 这个任务虽然现在也很火，但做法许多都是在图像一端做改进。这篇论文则是从文本，也就是 question 这一端做改变。具体来说，它依照 image 中的 proposal 来不断更新 question representation，其实就是让 image information fuse into text (question)。在更早的一篇 ECCV 2016 submission《A Focused Dynamic Attention Model for Visual Question Answering》便明确指出了 fusion 这个词（Multimodal Representation Fusion）。下图一图胜千言：

类似的思想其实有非常多变种，在不同领域，不同任务上都能找到相似的身影。比如在 NLP 的 Reading Comprehension 任务中，会为了让 document representation 更“倾向”于 question，让 document representation 不断做基于 attention over question 的更新。这种更新一般通过 multiply function 来操作，结果就是让 document representatio bias to question representation，从而使得更容易找到 document 中针对 question 的 answer（即 reading comprehension）。具体的一篇论文例子，可以看《Gated-Attention Readers for Text Comprehension (ICLR 2017 submission)》。也是 Ruslan 的工作，很早放在 arXiv 上，ICLR submission 这个版本改进了写作，related work 部分也值得一看。模型乍看比较复杂，但是还是好理解的：

在做 Reading Comprehension 的任务时，这篇工作相当于不断去更新 document representation，同时也要重新 embed question。

今天的分享就到这里啦，欢迎大家与我们多多交流。我们下次见！（努力不跳票……

Omni-Space

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介

NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介原创2016-12-12小 S程序媛的日常程序媛的日常过去一周，最受关注的学术界盛事就是在美丽的巴塞罗那召开的 NIPS 2016 大会啦。每年 NIPS 的会议上，都会有非常重量级的 tutorial 和工作发表。今天给大家推荐和分享的是如下几篇
复制链接

扫一扫