强化学习与进化优化的关系?

在上一篇博客中介绍过:强化学习既代表了一类问题,同时也是解决这类问题的一种机器学习范式,但是它和进化优化算法或者其他优化算法之间有什么样的关系呢?

强化学习的核心是就是对价值函数的评估,也就是说强化学习的核心就是计算价值函数。既然如此,我们也可以用进化优化算法来计算其价值函数。从狭义角度看,强化学习算法也可以看做是优化算法。

这里有必要辨析一下进化算法和强化学习算法的差异及各自适用范围:

进化优化算法包含遗传算法、遗传规划等等,主要特点是无需显式计算价值函数(这点与强化学习不同,强化学习是需要显式计算价值函数,例如Q表),是“黑箱”优化算法,进化算法的思想是将不同的初始策略编码到不同个体中,这些个体与环境的长时间交互,获得最终收益(适应度函数),利用适应度函数选择最优的进入下一代,经过交叉、变异操作,重新进行收益评估。很显然,进化算法具有以下特点:无需求导特性、群体特性、解的多样性、并行计算性、全局最优解等。但是最大的问题就是在一代当中不能迭代学习,因此收敛速度慢。

而强化学习相当于人类在一生中不断地学习进步,与环境的交互过程中不断改进其策略,无须等到一代的结束,因此迭代速度更快。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值