进化算法和深度强化学习的关系?

目录

一、前言

二、进 化 算 法 引 导 策 略 搜 索 的 强 化 学 习

1.参 数 分 布 搜 索 方 法

2.策 略 梯 度 近 似 方 法

3.策 略 种 群 搜 索 方 法

三、进 化 算 法 经 验 指 导 的 深 度 强 化 学 习

1.无 反 馈 的 指 导

2.有 反 馈 的 指 导

3.进 化 算 法 模块嵌入 的 深 度 强 化 学 习

四、总 结 与 展 望


一、前言

深 度 强 化 学 习 是 目 前 机 器 学 习 领 域 中 重 要 的 研 究 分 支 之 一 , 它 可 以 通 过 直 接 与 环 境 进 行 交 互 实 现 端 到 端 的 学 习 , 对 高 维 度 和 大 规 模 的 问 题 有 着 很 好 的 解 决 能 力 . 虽 然 深 度 强 化 学 习 已 经 取 得 了 瞩 目 的 成 果 , 但 其 仍 面 临 着 对 环 境 探 索 能 力 不 足 、 鲁 棒 性 差 、 容 易 受 到 由 欺 骗 性 奖 励 导 致 的 欺 骗 性 梯 度 影 响 等 问 题

进 化 算 法 普 遍 具 有 较 好 的 全 局 搜 索 能 力良 好 的 鲁 棒 性 和 并 行 性 等 优 点 , 因 此 将 进 化 算 法 与 深 度 强 化 学 习 结 合 用 于 弥 补 深 度 强 化 学 习 不 足 的 方 法 成 为 了 当 前 研究 的 热 点。在 强 化 学 习 中 , 也 可 以 使 用 进 化 算 法 选 择 其 超 参 数 或 优 势 个 体。

 进 化 算 法 结合到 深度 强 化学 习 算 法 之 中 时 , 进 化 算法 中 的 个 体通 常 作 为 深度强 化  中 的 策 略 网 络种 群 则 是 由 多 个策 略 网 络 所 组 成 的 网 络 集 合 , 而进 化 算 法中 对 个体 的 交叉 与变异操 作 则 对应策 略 网 络参数 的 交 叉 与 变 异 , 在 深度 强 化学 习 中 评 估 某 个 个 体 的 策 略 网 络 的 方 法是 让其与 环 境进行交 互 , 并 将交互 一 回 合所 获得 的 累 计 回 报看作 此 个体对 坏 境 的 适应度

融合两种方法的优点方式可分为进 化 算 法 引 导 策 略 搜 索 的 强 化 学 习结 合 进 化 算 法 的 深 度 强 化 学 习

二、进 化 算 法 引 导 策 略 搜 索 的 强 化 学 习

进 化 算 法 的 本 质 是 对解 空 间 进 行 搜 索 从 而 得 到 近 似 的 最 优 解 , 因 此 对 于 强 化 学 习 问 题 , 可 以 将 智 能 体 的 策 略看 作 解 空 间 , 并 将 最 优 策 略 看 作 最 优解 , 之 后 采 取类 似 进 化 算 法 的 搜 索 方 法 进 行 策 略 搜 索

1.参 数 分 布 搜 索 方 法

策 略 梯 度 方 法 的 思 想 是 增 加 累 计 奖 励 较 高 的 策 略 所 出 现 的 概 率 , 这 与 进 化 策 略 的 思 想 类 似 . 我 们 可 以 将 策 略看 作 一 个 分 布 , 通 过 将 累 积 奖 励 作 为 适 应 度 函 数

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值