强化学习学习笔记

强化学习无标签
状态与行为的映射

强化学习符号定义

Rt:t时刻的奖励函数值
St:t时刻的状态
At:t时刻的行为

马尔可夫过程

马尔可夫过程:在目前已知状态下,未来的演变不依赖于过去的演变
马尔可夫性质:每一个状态的转移只依赖于其之前的那一个状态
马尔可夫假设:假设这个模型的每个状态都只依赖于之前的状态

强化学习相关算法

K-摇臂赌博机:探索-利用 困境
贪心算法:寻找当前状态下的最优解(只图眼前利益最大化)
ε-贪心算法:以ε探索,以1-ε利用
Softmax算法:k按照Boltzmann分布

有模型学习:模型已知,即MDP四元组已知;假设状态空间有限
策略评估:模型已知,则对于某一策略Π的期望累积奖励可被估计
VΠ(x):状态值函数;QΠ(x,a):状态-动作值函数
动态规划算法(DP):无后效性;最优子结构;

强化学习过程

强化学习:马尔科夫决策过程,MDP
MDP四元组:X:状态空间;A:动作空间;P:转移函数;R:奖励函数
学习的目的:找到长期累积奖赏最大化的策略
强化学习不是一个能及时反馈奖赏的过程,而是一个长期过程

开始时刻,给出开始状态
待优化目标函数:累计奖励,一段时间内的奖励函数加权平均值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值