VIN阅读笔记

阅读时记录下的一些零散的点:

1.IL 或者 RL 是端到端学习的一种方法,与价值迭代网络无关。其原理是价值迭代网络通过学习一个奖励函数和转移函数的映射权重,从而来学习如何估算价值。但是这个价值的估算需要有一个评判标准,这个评判标准的方法就是IL或者RL。因此RL或者IL只是具体的一种端到端学习手段,与vin无关。

整个过程即相当于学习如何去规划(即学习vin中的参数)。例如本代码示例的IL方式,即是规划模块对路径规划问题去进行规划方式的学习,规划的正确与否由专家学习的结果来评判。规划模块在评判中不断改进自己的规划方式,直到达到一个较好的效果。(需要指出的是,vin与强化学习很相似,都包含q值,v值,奖励的r值,但是包含这些参数并不等同于强化学习,而是mdp过程所具有的参数。强化学习是通过不断的试错,去学习一个最佳的策略,比如在设定好的奖励下,如何去获得最大奖励。而vin则是去学习如何设定mdp过程的参数,让该网络自行去学习一个最佳的奖励设定方式和状态转移方式,从而学习规划以获得最佳的策略。)

2.vi模块是学习规划的重点,如果要让整个系统处于端到端的可训练网络,则vi模块必须满足可微性质,以及误差反传性质(back-propagation)。因此结合卷积网络的性质与vi模块的算法,为了将fr和fp可微以及梯度可反传,作者提出用CNN网络来拟合vi的计算,因此可以将vi模块看作一个网络,再结合后面使用的IL或者RL,因此可以实现一个端到端的训练。

3.m‘和m的区别,m’是模拟m的世界,即可以理解为学习规划的世界,而m为应用规划的世界。vin首先在m’中学习,而m则充分模拟了m真实世界。如何联系m和m‘世界,则是通过fr和fp,将世界里的观察映射到vin的输入。m‘和m世界构造有所不同,但是属于同类型的世界,因此他们的观测是同类型的。这个同类型的观测便联系起了两个世界,我们要将这个观测去映射成可学习的参数,结合第二点,我们采用CNN网络将观测映射为fr和fp(注:该CNN网络与vi模块中的CNN网络不是同一个,前者是后者的输入。前者也可以用全链接网络等,用CNN的原因是CNN具有更加强大的图像处理能力,而在规划问题中,大部分的原始输入都是图像输入,故采用CNN)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值