2301_77120539-CSDN博客

原创 Q-learning算法（笔记）

若动作是连续（无限）的，神经网络的输入是状态和动作，然后输出一个标量，表示在状态下采取动作能获得的价值。问题1，如果要用时序差分算法来准确地估计策略的状态价值函数，我们需要用极大量的样本来进行更新。参考价值迭代章节，我们已经提出了解决方案：我们不再试图用用大量样本得到收敛地状态价值函数（或用状态转移概率求解状态价值），而是用argmax Q(s,a)作为状态价值，并更新策略。由于“自举”，即用神经网络的估测再次更新神经网络，以及求max的规则，神经网络会高估q(s,a)的值，而且会高估会不断累积。

2024-07-22 14:01:56 1235

原创动态规划算法（笔记）

提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-07-21 16:24:21 720

原创马尔可夫决策过程（笔记）

即，t+1时刻的状态只与t时刻状态有关。二者关系：执行动作a后，有即时奖励r（s，a），由概率转移方程及vΠ（s`）得到后续状态的期望回报。在一个马尔可夫奖励过程中，从第t时刻状态开始，直到终止状态时，所有奖励的衰减之和称为回报Gt。状态价值函数：引入动作。动作价值函数：QΠ（s，a）从状态s出发执行动作a得到的期望回报。t时刻动作a价值：即时奖励＋折扣因子 * 新状态的状态价值期望。一个状态的期望汇报为该状态价值，所有状态的价值组成价值函数。t时刻状态价值：t时刻状态所有可能的qΠ(s,a)之和。

2024-07-21 15:40:39 726

原创强化学习策略：探索与利用（笔记）

有一个拥有K根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布。尝试过程中，我们需要在“探索拉杆的获奖概率”和“根据经验选择奖励期望最高的拉杆”进行权衡。也就是exploration or exploition（探索可能或利用经验）。

2024-07-21 14:59:38 147

原创强化学习笔记

智能体在环境的一个状态下做出一个动作决策，使得环境发生改变并返回相应的奖励。智能体有三种关键要素：感知、决策和奖励。感知：智能体通过传感器等感知环境。决策：智能体根据当前状态选择采取的动作。奖励：环境给予的反馈。最大化累积奖励是智能体提升策略的目标，也是衡量策略好坏的目标。

2024-07-21 14:40:20 201

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Q-learning算法（笔记）

原创 动态规划算法（笔记）

原创 马尔可夫决策过程（笔记）

原创 强化学习策略：探索与利用（笔记）

原创 强化学习笔记

空空如也

空空如也

原创动态规划算法（笔记）

原创马尔可夫决策过程（笔记）

原创强化学习策略：探索与利用（笔记）

原创强化学习笔记