论文笔记:Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end
这是一篇发表于 NIPS 2017 的关于 HyperDimensional Computing(HD) 的文章。
任务
这篇文章面向的任务是 Visual Question Answering (VQA),通俗讲就是给机器一张图片,一个相应的问题,然后机器根据图片来回答问题。
通常来讲,处理这种任务的模型一般分为两个部分,一个部分是是 RNN,用来 encode 问题,并生成答案;另外一部分是 CNN,用来分析图片。成功的关键在于如何把两者的输出,有机的结合起来,能让生成答案的过程更加合理。
另外一类方法也是分为两个部分。一个叫 perceiver,另外一个叫 evaluator。Perceiver 负责把图片变成一个知识库 (Knowledge base);evaluator 则负责根据问题,在这个知识库上面搜索,找到最合适的答案。
其实不管哪种方法,最难解决的,也是这个任务最有趣的,就是如何统一文字和图片这二者的 feature,毕竟他们有着非常不一样的结构,被不一样的模型处理。本文的作者希望能用 HyperDimensiona(HD)Computing 解决这个不统一的问题。在这篇文章里面,知识库就是用 HD vector 来表示的。
数据集
图片比较小,28x28 的尺寸。