人工智能(强化学习)

最新推荐文章于 2023-12-31 01:43:56 发布

_BOTAK_

最新推荐文章于 2023-12-31 01:43:56 发布

阅读量1.8k

点赞数

分类专栏：人工智能学习笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BOTAK_/article/details/103736834

版权

学习笔记同时被 2 个专栏收录

64 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

强化学习

强化学习通常用马尔可夫决策过程（Markov Decision Process）MDP

$E = < X, A, P, R >$

X:state enviroment

A:action

P:move function

R:reward

K-摇臂赌博机

最大化单步奖赏，仅考虑一步操作

最大化单步奖赏需要考虑两个方面：一是需要知道每一个动作所带来的奖赏。二是要执行奖赏最大的动作

仅探索（exploration-only）：若仅仅为了获知每一个摇臂的期望奖赏，将所有的尝试机会平均分配给每一个摇臂，最后以每一个摇臂各自的平均吐币率作为其奖赏期望的近似

估算

仅利用（exploitation-only）：若仅仅为了执行奖赏最大的动作，按照目前最优的摇臂，若多个摇臂同为最优，则从中随机选择一个。

$\epsilon -\text{贪心}$

该方法基于一个概率对探索以及利用进行折中，每次尝试的时候，以 $\epsilon$ 的概率进行探索，即以均匀概率随机选择一个摇臂，以 $\epsilon$ 的概率进行利用，即选

择当前平均奖赏最高的摇臂。

增量式计算（类似于动态规划）

$Q_n(k) = \frac{1}{n}[(n-1) * Q_{n-1}(k) + v_n]$

softmax

softmax算法基于当前已知的摇臂平均奖赏对探索和利用进行折中，若各个摇臂的平均奖赏相当，则选取的各个摇臂的概率也相当，若某些摇臂的平均奖赏明显高于其他摇臂，则他

们被选取的概率也明显增高。

有模型学习

策略评估

$V^{\pi}(x)$

$Q^{\pi}(x,a)$

MDP具有马尔可夫性质，即系统的下一个状态仅由当前时刻的状态决定，类似于动态规划的思想

策略改进

对于某一个策略的累积奖赏进行评估后，若发现它并非最优，则当然希望对其进行改进，理想的策略应该是最大化累积奖赏，只能用于当策略空间为无约束条件

免模型学习

蒙特卡罗强化学习

一种直接的想法是进行多次采样，然后求取平均累积奖赏作为期望累计奖赏的近似

时序差分学习

蒙特卡罗强化学习算法通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，此类算法需要完成一个采样轨迹后更新策略的值的估计，而我们更希望她类似于动态规划的思想，基于前一个状态就可以推出当前状态的状态。这里的主要问题就是蒙特卡罗强化学习没有充分利用强化学习任务的MDP结构。时序差分（TD）学习则结合了动态规划与蒙特卡罗方法的思想，能够做到高效的免模型学习。

值函数近似学习

之前的强化学习都是在有限的状态空间中进行相关的策略学习的，但是，在现实生活中，通常情况下，状态空间通常是无限的，这时候就要值函数近似学习。不是对状态空间进行离散化，而是直接对连续状态空间的值函数进行学习

模仿学习

直接模仿学习

直接模仿人类专家的（状态-动作）对

逆强化学习

在很多的任务中，设计奖赏函数往往相当困难，从人类专家提供的实例数据中反推出奖赏函数有助于解决问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。