论文笔记：Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end

最新推荐文章于 2024-06-10 09:36:06 发布

鑫读paper

最新推荐文章于 2024-06-10 09:36:06 发布

阅读量750

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/simonx_harvard/article/details/103116425

版权

这篇NIPS 2017的论文探讨了如何应用Hyper-dimensional Computing（HD）来处理Visual Question Answering（VQA）任务。传统方法通常包括RNN和CNN，而本文提出将图片转化为知识库，用HD向量表示，解决文字和图片特征的统一问题。论文使用了一个人工构造的数据集，其中图片包含两种物体和四种属性，通过HD向量的操作实现问题解答。HD向量具有可逆性，为端到端训练提供可能。

摘要由CSDN通过智能技术生成

论文笔记：Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end

这是一篇发表于 NIPS 2017 的关于 HyperDimensional Computing（HD）的文章。

任务

这篇文章面向的任务是 Visual Question Answering (VQA)，通俗讲就是给机器一张图片，一个相应的问题，然后机器根据图片来回答问题。

通常来讲，处理这种任务的模型一般分为两个部分，一个部分是是 RNN，用来 encode 问题，并生成答案；另外一部分是 CNN，用来分析图片。成功的关键在于如何把两者的输出，有机的结合起来，能让生成答案的过程更加合理。

另外一类方法也是分为两个部分。一个叫 perceiver,另外一个叫 evaluator。Perceiver 负责把图片变成一个知识库（Knowledge base）；evaluator 则负责根据问题，在这个知识库上面搜索，找到最合适的答案。

其实不管哪种方法，最难解决的，也是这个任务最有趣的，就是如何统一文字和图片这二者的 feature，毕竟他们有着非常不一样的结构，被不一样的模型处理。本文的作者希望能用 HyperDimensiona（HD）Computing 解决这个不统一的问题。在这篇文章里面，知识库就是用 HD vector 来表示的。

数据集

图片比较小，28x28 的尺寸。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。