学习笔记|视觉语言导航任务

视觉语言导航任务

  • 任务提出:CVPR2018,在Matterport3D simulator仿真环境中,从随机初始化位置到目标位置的最佳路径的轨迹搜索任务。

  • 任务描述:这是一个偏向落地型的研究方向:该任务要求智能体,在环境中,按照自然语言指令进行导航,移动,最终到达指定目的地,所以这是一个涉及到计算机视觉和自然语言处理的多模态任务。

  • 学科定位:目前,在这两个领域的多模态任务主要有image captioning,VQA,image Generation等。通过对这些视觉语言综合任务的分类和比较,明确navigation任务在学科体系中的位置。

弱耦合任务

  • 图像描述

    encoder-decoder的show and tell 和 neural talk(CNN+RNN)

  • VQA视觉问答

    联合嵌入模型:图像和文字在公共特征空间学习

    注意力机制模型:局部图像特征对不同区域特征加权解决噪声问题

    模块化组合模型:引入不同功能的神经网络模块

    知识库增强模型:引入外部知识库解决先验知识问题

  • 文本图像生成

    变分子编码器、基于流的生成模型、近似PixelCNN、GAN

    基于GAN的优化方向:增加网络深度、引入多个判别起、注意力机制、增加额外约束、分阶段生成(场景图、语义中间层)

  • 视觉对话

    多次问答,基于深度强化学习的模型、注意力机制、条件变分自编码器

  • 多模态机器翻译

    给定源语言+图片,输出目标语言

    研究方向:分解任务目标、充分发掘图片的视觉特征、强化学习方法的使用、无监督学习方法的拓展

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值