强化学习算法总结 (1)

最新推荐文章于 2024-07-12 18:56:03 发布

伊斯坦布尔的毛兔子

最新推荐文章于 2024-07-12 18:56:03 发布

阅读量234

点赞数

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44600017/article/details/132677857

版权

强化学习算法总结 (1)

1.综述

强化学习是通过与环境进行交互，来实现目标的一种计算方法。
$s - a_1 - r- s'$

1.1强化学习优化目标

$policy= argmax_{policy} E_{(a,s)}[reward(s,a)]$

强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。

1.2 平衡与探索

策略告诉我们应该采取哪些动作，同时也要对新的策略进行探索。

这里引入一个概念为懊悔值，当前动作a的收益与最优结果的差距

$\epsilon - greedy$

策略
$\epsilon \\ a_t = aegmaxQ（a）\\ else:\\ 随机策略$
但是结果来看积累的懊悔值是和和时间成正比的，因为随机拉杆的探索概率是固定的

上置信界法UCB

$a_t = argmax_\alpha [Q(A)]$

汤普森采样

2. 马尔科夫决策过程

MDP：利用当前已知的信息就可以决定未来

采样：根据状态转移矩阵生成一个状态序列 $s_1 -> s_2 -> ...-> s_n$

2.1 马尔科夫奖励过程

在决策过程中加入了奖励函数r和折扣因子，形成了马尔科夫奖励过程 $<S,P,r,\gamma>$ ,状态集合，状态转移矩阵，奖励函数，折扣因子
$G_t = R_t+ \gamma R_{t+1}... = \sum \gamma^k R_{t+k}$

价值函数
$E[G_t |S_t =s]\\我们把G_t 拆开R_t +\gamma V(s_{t+1}) 而后面的E(\gamma V(s_{t+1}|s_t =s)) 用状态转移函数表示\\V(s) = r(s) +\gamma\sum P(s'|s)V(s')$

只适用于规模比较小的马尔科夫过程计算价值函数，不然使用 MC，TD，动态规划等算法

2.2 马尔科夫决策过程

MDP;<S,A,P,r, $\gamma$ >:这里不再使用状态转移矩阵，而是状态转移函数

S:状态合集
A:动作合集
$\gamma$ :折扣因子
r(s,a)：奖励函数，收到了s和a影响
P(s’|s,a)：状态转移函数

策略： $\pi(a|s) = P(A_t = a| S_t =s)$ :表示当前状态下，采取这个策略a的概率。如果是一个随机策略，输出是关于动作的概率分布函数

状态价值函数
$V^{\pi} = E_{\pi}[G_t | S_t = s]$
当前状态下，预计未来的收益
动作价值函数
$Q^{\pi}(s,a) = E_\pi[G_t | S_t = s ,A_t =a]$
在遵循当前策略下，执行动作a的收益

$V^\pi(s) = \sum\pi(a|s) Q^\pi (s,a)$

贝尔曼期望方程

$Q^\pi (s,a) = E_\pi[R_t+\gamma Q^\pi(s',a')|S_t= s,A_t = a] \\= r(s,a) +\gamma\sum V(s') \\= r(s,a) +\gamma\sum P(s'|a,s)\sum \pi(a'|s')Q^\pi(s',a')$

$V^\pi(s) = E_\pi[R_t+\gamma V^\pi(s')|S_t = s] =\\\sum\pi(a|s)(r(s,a)+\gamma\sum P(s'|s,a)V^\pi(s'))$

伊斯坦布尔的毛兔子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法总结 (1)

强化学习是通过与环境进行交互，来实现目标的一种计算方法。s−a1−r−s′。
复制链接

扫一扫

伊斯坦布尔的毛兔子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

35: 原创

40万+: 周排名

137万+: 总排名

1万+: 访问

: 等级

461: 积分

24: 粉丝

27: 获赞

18: 评论

78: 收藏

私信

关注

热门文章

分类专栏

最新评论

【无标题】
Anna_wjy: gym降级一直报错，去掉--user就可以了
神经网络（一）：GRNN广义回归神经网络理论概念笔记
2301_80150806: 作者您好，请问想要完全理解广义回归神经网络需要看那些书？
速通过tensorflow1.X
伊斯坦布尔的毛兔子: 您私信发我一下呗,我来看看
速通过tensorflow1.X
孙兔子: 前辈，你好，我今天按照您的方法，在colab里面降低tensorflow版本没有成功，% tensorflow那行代码直接标红，请问这个可以解决吗
深度学习_２
大家一起学编程（python）: 六六六

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。