An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep RL

这是一篇做关于用reinfocement learning(RL)做Natural Language Object Retrieval的文章,paper的链接https://arxiv.org/abs/1703.07579,没有找到作者的homepage,但是code已经released出来了https://github.com/jxwufan/NLOR_A3C
文章要做的事情:
输入:text+image dataset     输出:object
results exmaple

method

文章中给出的natural language object retrieval via context-aware deep reinforcement learning的一个示意图。
framework exmaple
context-aware policy and value network framework如下所示。
context-aware policy and value network framework
training pipeline如下所示。
training pipeine
这篇文章重要的的一点是用end-end并通过强化学习的方式来产生bbox,而不需要通过训练好的proposel(rely heavily on the training data of object proposals and are restricted to the predefined object categories)网络来提取。
image features: concat global feature( ResNet152 global average pooling) and local feature( ResNet152 Roi pooling+global average pooling),2048+2048=4096dim。
sentence features: skip-thought vectors [ http://papers.nips.cc/paper/5950-skip-thought-vectors ] trained on the BookCorpus dataset,4096dim。
然后再将image feature和sentence feature做dot product和L2的运算,然后再与50(50x9=450dim)个之前的动作向量和一个bbox向量(5dim)做concatation运算,得到一个4096+450+9=4551dim的向量,然后再通过2个FC得到1024dim的feature,然后在通过一个带有Layer Normalization的LSTM(根据temporal context做subsequent decision making),最后输出policy(决定要采取的action)和value(估计reward)。
training: uses multiple agents associated with environments to collect data in parallel and updates the policy asynchronously by asynchronous advantage actor-critic (A3C) method [ https://arxiv.org/abs/1602.01783 ]。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值