进化算法与深度强化学习算法结合如何进行改进?

(1)进化算法普遍存在着样本效率低下的问题,虽然其探索度较高,但其本质为全局随机性搜索,需要在整个回合结束后才能更新其种群,而深度强化学习在每个回合步中都会得到大量的信息并使用这些信息进行梯度更新,因此进化算法相较于深度强化学习来说样本效率较低.针对进化算法样本效率的问题,可以使用深度强化学习中的梯度和回合步中的其它信息对其进行指导,指引进化算法种群在解空间中的位置与下一代进化的方向。

(2)进化算法与深度强化学习的兼容性较差,目前进化算法与深度强化学习的组合与耦合方式较为单一,可以从探索和利用的角度进一步的分析和探究两者的其它结合方式。平衡强化学习中的探索和利用一直是强化学习领域中的一个重要问题,在与进化算法结合的深度强化学习中也需要对两者进行更为合理的平衡,如引人新颖度与探索度等一些度量方式在进化算法的探索和深度强化学习的利用中自动调节也是未来的方向之一。

(3)目前结合进化算法与深度强化学习的方法中均与最新的同类方法进行了比较,但很少有进行消融实验并进行进一步分析其算法获得提升的工作。进化算法本身为一种启发式算法,其理论基础较为薄弱,且与深度强化学习一样均不能保证其收敛性,因此需要加强对算法性能提升的分析与实验,从而为进一步的研究打下基础。

mbd.pub/o/GeBENHAGEN

擅长现代信号处理(改进小波分析系列,改进变分模态分解,改进经验小波变换,改进辛几何模态分解等等),改进机器学习,改进深度学习,机械故障诊断,改进时间序列分析(金融信号,心电信号,振动信号等)

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值