强化学习学习笔记

LQ_QL_LQ

于 2020-12-09 21:28:39 发布

阅读量78

点赞数

分类专栏：日常记录文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lqqqqqqqqqqqq/article/details/110938736

版权

日常记录专栏收录该内容

12 篇文章 0 订阅

订阅专栏

强化学习无标签
状态与行为的映射

强化学习符号定义

Rt：t时刻的奖励函数值
St：t时刻的状态
At：t时刻的行为

马尔可夫过程

马尔可夫过程：在目前已知状态下，未来的演变不依赖于过去的演变
马尔可夫性质：每一个状态的转移只依赖于其之前的那一个状态
马尔可夫假设：假设这个模型的每个状态都只依赖于之前的状态

强化学习相关算法

K-摇臂赌博机：探索-利用困境
贪心算法：寻找当前状态下的最优解（只图眼前利益最大化）
ε-贪心算法：以ε探索，以1-ε利用
Softmax算法：k按照Boltzmann分布

有模型学习：模型已知，即MDP四元组已知；假设状态空间有限
策略评估：模型已知，则对于某一策略Π的期望累积奖励可被估计
VΠ(x)：状态值函数；QΠ(x,a)：状态-动作值函数
动态规划算法（DP）：无后效性；最优子结构；

强化学习过程

强化学习：马尔科夫决策过程，MDP
MDP四元组：X：状态空间；A：动作空间；P：转移函数；R：奖励函数
学习的目的：找到长期累积奖赏最大化的策略
强化学习不是一个能及时反馈奖赏的过程，而是一个长期过程

开始时刻，给出开始状态
待优化目标函数：累计奖励，一段时间内的奖励函数加权平均值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习学习笔记

强化学习无标签状态与行为的映射强化学习符号定义Rt：t时刻的奖励函数值St：t时刻的状态At：t时刻的行为马尔可夫过程马尔可夫过程：在目前已知状态下，未来的演变不依赖于过去的演变马尔可夫性质：每一个状态的转移只依赖于其之前的那一个状态马尔可夫假设：假设这个模型的每个状态都只依赖于之前的状态强化学习相关算法K-摇臂赌博机：探索-利用困境贪心算法：寻找当前状态下的最优解（只图眼前利益最大化）ε-贪心算法：以ε探索，以1-ε利用Softmax算法：k按照Boltzmann分布有模型
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。