Facobook开源视觉问答VQA框架:Pythia

Facebook AI Research团队在VQA Challenge 2018夺冠并开源了Pythia框架,这是一个用于视觉问答研究的模块化平台。Pythia基于up-down模型并进行了多项改进,包括模型架构、学习计划、特征微调等,旨在促进VQA和视觉对话领域的进步。项目链接:https://github.com/facebookresearch/pythia。
摘要由CSDN通过智能技术生成

VQA Challenge 2018的冠军方案。

(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)

什么是视觉问答VQA(Visual Question Answering)?

给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。

比如这些例子:

它是计算机视觉和自然语言处理问题的高级综合,好的VQA系统可以帮助盲人理解这个世界。

Pythia开源目的

Facebook AI Research的研究员们参加了VQA Challenge 2018,并获得了冠军,他们发现现今的很多VQA系统都有一些相同的功能模块,比如问题编码,图像特征提取,两者的融合(典型的使用attention模型),答案空间的分类等,他们将自己的获胜方案开源,期望它能成为VQA或相关方向比如视觉对话(visual dialog)领域易用和模块化的研究平台。

VQA Challenge 2018的Leaderboard:

Pythia(皮媞亚)是向Oracle o

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值