论文笔记:Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end

这篇NIPS 2017的论文探讨了如何应用Hyper-dimensional Computing(HD)来处理Visual Question Answering(VQA)任务。传统方法通常包括RNN和CNN,而本文提出将图片转化为知识库,用HD向量表示,解决文字和图片特征的统一问题。论文使用了一个人工构造的数据集,其中图片包含两种物体和四种属性,通过HD向量的操作实现问题解答。HD向量具有可逆性,为端到端训练提供可能。
摘要由CSDN通过智能技术生成

论文笔记:Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end

这是一篇发表于 NIPS 2017 的关于 HyperDimensional Computing(HD) 的文章。

任务

这篇文章面向的任务是 Visual Question Answering (VQA),通俗讲就是给机器一张图片,一个相应的问题,然后机器根据图片来回答问题。

通常来讲,处理这种任务的模型一般分为两个部分,一个部分是是 RNN,用来 encode 问题,并生成答案;另外一部分是 CNN,用来分析图片。成功的关键在于如何把两者的输出,有机的结合起来,能让生成答案的过程更加合理。

另外一类方法也是分为两个部分。一个叫 perceiver,另外一个叫 evaluator。Perceiver 负责把图片变成一个知识库 (Knowledge base);evaluator 则负责根据问题,在这个知识库上面搜索,找到最合适的答案。

其实不管哪种方法,最难解决的,也是这个任务最有趣的,就是如何统一文字和图片这二者的 feature,毕竟他们有着非常不一样的结构,被不一样的模型处理。本文的作者希望能用 HyperDimensiona(HD)Computing 解决这个不统一的问题。在这篇文章里面,知识库就是用 HD vector 来表示的。

数据集

图片比较小,28x28 的尺寸。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值