胡说CMVAE
1.什么是cross modal
文中提到的跨模态框架是为了学习导航策略的潜在状态,这种表示结合了无人机的视觉输入(图像)和无人机的运动状态(姿态、速度等),在cmvae中,编码器会将不同模态的数据编写在同一个潜在高斯分布空间中,解码器会对应分布
2.数学推导
最小化lowerbound函数,同时提出了p和q的概念
具体推导过程已将描述过,这里区分
下文中几个变量的区别
- Z 表示一个潜在分布空间中不同模态的数据的表示形式
- q 指不同的架构,应该是对应法则的意思,q有被约束,无约束,回归形式
- BC 指一个学习网络,通过学习expert的无人机导航任务,接受z的量,输出相应无人机动作
3.跨模态学习方法
-
编码器学习一个低维度的空间,映射了所有模态的数据
-
为了训练控制策略,文中使用了模仿学习(Imitation Learning,即behavior cloning)方法,其中专家轨迹是在模拟器中生成的,通过模仿这些专家轨迹,控制策略能够学习到如何在各种情况下做出合适的决策
-
最后展示了与端到端学习或纯无监督特征提取器相比,使用跨模态架构可以显著提高控制策略的性能
综上所述,跨模态表示学习在文中主要关注的是如何结合不同模态的数据来创建一种状态表示,以提高机器在复杂环境中的感知和控制能力
4.在虚拟导航中的作用
- z值包括了门的姿态和背景景物的特征,可以学习到门的大小、水平偏移、垂直偏移和偏航角。
- 图像重构后的样子有些blurry,但是整体特征没有失真,背景景物依然可以看出来
- 两个模拟图像之间的潜在图像被smoothly的生成了出来,验证了潜在空间的平滑性,即使是背景特征,如地面的倾斜,也得到了平滑的捕捉,这一分析证实了潜在空间的平滑性,即相似的潜在向量对应相似的门姿态,也是vae的重要作用