hacker&pxc-CSDN博客

原创强化学习知识总结（三）：马尔可夫决策过程

在第二篇总结中，提到的多臂老虎机中，每一次交互的结果与以往的动作无关，而现实中我们所讨论的强化学习无法避免状态迁移的问题，在谈及具体的强化学习算法之前，有必要掌握马尔可夫决策过程的状态转移机制。

2024-02-19 02:42:46 2348 1

但是由于计算所有拉杆的期望奖励的代价比较高，汤普森采样算法使用采样的方式，即根据当前每个动作a的奖励概率分布进行一轮采样，得到一组各根拉杆的奖励样本，再选择样本中奖励最大的动作，可以看出，汤普森采样是一种计算所有拉杆的最高奖励概率的蒙特卡洛采样方法。UCB算法的思想是在每次选择拉杆前，先估计拉动每根拉杆的期望奖励上界，使得拉动每根拉杆的期望奖励只有一个较小的概率p超过这个上界，接着选出期望奖励上界最大的拉杆，从而选择最有可能获得最大期望奖励的拉杆。此时，上置信界算法便选取期望奖励上界最大的动作，即。

2024-02-15 21:46:36 2547 1

原创强化学习知识总结（一）

强化学习是机器通过与环境交互来实现目标的一种计算方法机器和环境的一轮交互是指机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并将相应的奖励反馈和下一轮状态传回机器。机器的目标是最大化在多轮交互过程中获得的累计奖励的期望。

2024-02-15 00:00:00 647 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_51633770的博客

原创强化学习知识总结（三）：马尔可夫决策过程

原创强化学习知识总结（二）：多臂老虎机（MAB）问题

原创强化学习知识总结（一）

空空如也

空空如也

原创 强化学习知识总结（三）：马尔可夫决策过程

原创 强化学习知识总结（二）：多臂老虎机（MAB）问题

原创 强化学习知识总结（一）

空空如也

空空如也

原创强化学习知识总结（三）：马尔可夫决策过程

原创强化学习知识总结（二）：多臂老虎机（MAB）问题

原创强化学习知识总结（一）