Episodic Transformer for Vision-and-Language Navigation
前言:
由Inria, 谷歌, 布朗大学2021年最新提出的Episodic Transformer,多模态Transformer网络,这是一种用于视觉-语言导航任务的多模态Transformer网络,在ALFRED基准上表现SOTA,而且代码开源!
Transformer微信交流群
我们建立了Transformer微信交流群,
关注公众号:菜鸡Ai
后台回复:加群
备注:学校|公司+昵称+方向 会有小哥哥拉你进群。
论文获取
公众号后台回复:ET
解决什么问题
本文着重解决两个的挑战:
1、处理长序列的子任务
2、理解复杂的人工指令。
方法及实现
1、提出了Episodic Transformer(