强化学习
文章平均质量分 90
道2024
AI安全
展开
-
强化学习之值迭代法(附代码)
策略改进 价值迭代法有两种形式,一种是利用状态动作价值函数的贝尔曼最优方程迭代求解状态动作矩阵QQQ,这也是俗称的QQQ-Learning\mathrm{Learning}Learning算法;另一种利用状态价值函数的贝尔曼最优方程迭代求解状态向量VπV_\piVπ。利用价值迭代法状态向量VVV的贝尔曼最优迭代公式为:Vπ(k+1)(s)=maxa∈A∑s′∈Sp(s′∣s,a)[r(s,a,s′)+γVπ(k)(s)]V_\pi^{(k+1)}(s)=\max\limits_{a \in \mat原创 2021-11-19 22:18:00 · 3821 阅读 · 1 评论 -
强化学习之Q-Learning(附代码)
QQQ-Learning\mathrm{Learning}Learning原理介绍 QQQ-Learning\mathrm{Learning}Learning是强化学习的算法之一,Q\mathrm{Q}Q-Learning\mathrm{Learning}Learning的主要目的就是学习状态动作价值函数的Q(s,a)Q(s,a)Q(s,a),其中Q(s,a)Q(s,a)Q(s,a)表示的是在给定当前状态sss和采取动作aaa之后能够获得的收益期望。QQQ-Learning\mathrm{Learnin原创 2021-11-18 14:14:23 · 4283 阅读 · 2 评论 -
强化学习之贝尔曼方程
强化学习 强化学习注重智能体(agent)与环境之间的交互式学习:强化学习的数据集不是训练初始阶段就有的,而是来自智能体与环境交互才能获得;强化学习不追求单步决策的最优策略,而是追求与环境交互获得的长期累积奖励。强化学习需要从整体上衡量整个交互过程。智能体在做决策时,会更加偏向于历史交互中带来更多奖励的动作。同时正如发现这些动作一样,未曾选择的动作中可能蕴藏着更优的决策,这鼓励着智能体尝试未曾选择的动作。因此智能体需要平衡利用(exploitation)和探索(exploration)。马尔原创 2021-11-17 13:24:08 · 2625 阅读 · 1 评论