强化学习
文章平均质量分 94
CyrusMay
这个作者很懒,什么都没留下…
展开
-
Soft Actor-Critic(SAC算法)
经过不断地soft policy evaluation和policy improvement,最终policy会收敛至。当|A|原创 2022-09-06 20:34:05 · 2681 阅读 · 0 评论 -
强化学习—— Twin delay deep deterministic policy gradient(TD3算法)
所以动作价值的估计函数学习的目标是累计回报与TD error之差的期望。-------- 从replay buffer中随机采样一个batch。使用了两个动作价值网络和一个策略网络,对应于三个Target 网络。---------------- 更新Target network。--------将transition。初始化replay buffer。初始化Target网络中的参数。--------更新价值网络。,并随机初始化其中的参数。--------得到奖励。,并得到下一时刻的状态。原创 2022-08-23 21:57:00 · 1153 阅读 · 0 评论 -
强化学习—— Trust Region Policy Optimization (TRPO算法)
TRPO原创 2022-07-14 21:34:25 · 487 阅读 · 0 评论 -
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)
强化学习—— 离散与连续动作空间(随机策略梯度与确定策略梯度)1. 动作空间1.1 离散动作空间1.2 连续动作空间1. 动作空间1.1 离散动作空间比如:{left,right,up}\{left,right,up\}{left,right,up}DQN可以用于离散的动作空间(策略网络)1.2 连续动作空间比如:A=[0∘,180∘]∗[0∘,360∘]A=[0^{\circ} ,180^{\circ} ]*[0^{\circ} ,360^{\circ} ]A=[0∘,180∘]∗[0原创 2022-04-12 23:42:17 · 12055 阅读 · 1 评论 -
强化学习—— 基于baseline的策略梯度(Reinforce算法与A2C)
强化学习—— 基于baseline的策略梯度(Reinforce算法与A2C)1. baseline的推导2. 策略梯度的蒙特卡洛近似3. baseline的选取4. Reinforce算法4.1 基本概念4.2 算法的训练流程1. baseline的推导策略网络为:π(a∣s;θ)\pi(a|s;\theta)π(a∣s;θ)状态价值函数为:Vπ(s)=EA∼π[Qπ(A,s)]=∑aπ(a∣s;θ)⋅Qπ(a,s)V_\pi(s)=E_{A\sim\pi}[Q_\pi(A,s)]\\=\sum原创 2022-04-12 14:34:54 · 957 阅读 · 0 评论 -
强化学习—— 多智能体强化学习
强化学习—— 多智能体强化学习1. 多智能体关系分类1.1 合作关系(Fully Cooperative)1.2 竞争关系(Fully Competitive)1.3 混合关系(Mixed Cooperative & Competitive)1.4 利己关系(self-interested)2. 专业术语(Terminologies)2.1 假设agent个数为2.2 状态为2.3 第i个agent的动作为2.4 状态转移函数2.5 奖励(Reward)2.6 回报(Return)2.7 策略原创 2022-04-11 12:44:27 · 10571 阅读 · 7 评论 -
强化学习—— Dueling Network
强化学习—— Dueling Network1、优势函数(Advantage Function)1.1 概念定义1.2 优势函数的性质2. Dueling Network2.1 近似网络2.2 训练过程3 网络保留优势函数最大值的原因:解决不唯一性1、优势函数(Advantage Function)1.1 概念定义折扣回报:Ut=rt+γrt+1+γ2rt+2+...U_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+...Ut=rt+γrt+1+γ2rt+2+.原创 2022-04-11 00:08:38 · 1937 阅读 · 0 评论 -
强化学习—— Target Network & Double DQN(解决高估问题,overestimate)
强化学习—— Target Network & Double DQN(解决高估问题,overestimate)1TD算法2. 高估问题2.1 Maximization2.1.1 数学解释2.1.2 动作价值函数的高估2.2 Bootstrapping2.3 高估是否有害3. 高估的解决方案3.1 Target Network3.1.1 Target Network的结构3.1.2 学习方式3.2 Double DQN4. 总结1TD算法TD Target:yt=rt+maxaQ(st+1,a原创 2022-04-10 14:20:02 · 2321 阅读 · 0 评论 -
强化学习—— 经验回放(Experience Replay)
强化学习—— 经验回放(Experience Replay)1、DQN的缺点1.1 DQN1.2 DQN的不足1.2.1 经验浪费1.2.2 相关更新(correlated update)2 经验回放2.1 简介2.2 计算步骤2.3 经验回放的优点3. 改进的经验回放(Prioritized experience replay)3.1 基本思想3.2 重要性抽样(importance sampling)3.2.1 抽样方式3.2.2 学习率变换(scaling learning rate)3.2.3 训原创 2022-04-10 13:08:47 · 9923 阅读 · 1 评论 -
强化学习—— TD算法(Sarsa算法+Q-learning算法)
强化学习—— TD算法(Sarsa算法+Q-learning算法)1. Sarsa算法1.1 TD Target1.2 表格形式的Sarsa算法1.3 神经网络形式的Sarsa算法2. Q-learning算法2.1 TD Target2.2 表格形式的Q-learning算法2.3 神经网络形式的Q-learning算法(DQN)3. Saras和Q-learning的区别4. Multi-step TD Target4.1 Sarsa的Multi-step TD Target4.2 Q-learnin原创 2022-04-08 19:52:14 · 5771 阅读 · 0 评论 -
强化学习—— 蒙特卡洛树(Monte Carlo Tree Search, MCTS)
强化学习—— 蒙特卡洛树(Monte Carlo Tree Search, MCTS)1. 单一状态蒙特卡洛规划1.1 特点1.2 数学模型2. 上限置信区间策略3. 蒙特卡洛树搜索1. 单一状态蒙特卡洛规划以 多臂赌博机(multi-armed bandits) 为例1.1 特点为序列决策问题,在利用(exploitation)和探索(exploration)之间保持平衡,利用为过去决策中的最佳汇报,探索为未来获得更大回报。1.2 数学模型设有k个赌博机,选择第I个赌博机后,获得的回报为原创 2022-04-03 18:22:38 · 9948 阅读 · 1 评论 -
强化学习(五)—— AlphaGo与Alpha Zero
强化学习(五)—— AlphaGo与Alpha Zero1. AlphaGo1.1 论文链接1.2 输入编码(State)1.3 训练及评估流程1.4 模仿学习(Behavior Cloning)1.5 策略网络依据策略梯度进行学习1.6 价值网络训练1.7 Monte Carlo Tree Search1.7.1 Selection2.1 网络结构2. AlphaGo Zero2.1 论文链接1. AlphaGo1.1 论文链接查看原文1.2 输入编码(State)棋盘大小:[19,19]原创 2022-03-31 15:50:42 · 3734 阅读 · 1 评论 -
强化学习(四)—— Actor-Critic
强化学习(四)—— Actor-Critic1. 网络结构2. 网络结构2. 策略网络的更新-策略梯度3. 价值网络的更新-时序差分(TD)4. 网络训练流程3. 案例1. 网络结构状态价值函数:Vπ(st)=∑aQπ(st,a)⋅π(a∣st)V_\pi(s_t)=\sum_aQ_\pi(s_t,a)\cdot\pi(a|s_t)Vπ(st)=a∑Qπ(st,a)⋅π(a∣st)通过策略网络近似策略函数:π(a∣s)≈π(a∣s;θ)\pi(a|s)\approx\原创 2022-03-29 20:37:34 · 3302 阅读 · 0 评论 -
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)1. 策略学习2. 策略梯度3. 案例1. 策略学习Policy Network通过策略网络近似策略函数π(a∣st)≈π(a∣st;θ)π(a|s_t)≈π(a|s_t;\theta)π(a∣st)≈π(a∣st;θ)状态价值函数及其近似Vπ(st)=∑aπ(a∣st)Qπ(st,a)V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a)Vπ(st)=a∑π(a∣原创 2022-03-29 16:01:51 · 1977 阅读 · 0 评论 -
强化学习(二)—— 价值学习(Value-Based)及DQN
强化学习(二)—— 价值学习(Value-Based)及DQN1. DQN介绍2. TD算法介绍1.1 Agent(智能体)1.2 Environment(环境)1.3 State *s*(状态)1.4 Action *a*(动作)1.5 Reward *r*(奖励)1.6 Policy *π*(策略函数)1.7 State transition *p*(*s*’ |*s*, *a*)(状态转移函数)1.8 Return *U*(回报)1.8 Action-value function(动作价值函数)1.9原创 2022-03-28 18:07:18 · 938 阅读 · 3 评论 -
强化学习(一)——专业术语及OpenAI Gym介绍
强化学习(一)——专业术语及OpenAI Gym介绍1. 专业术语1.1 Agent(智能体)1.2 Environment(环境)1.3 State *s*(状态)1.4 Action *a*(动作)1.5 Reward *r*(奖励)1.6 Policy *π*(策略函数)1.7 State transition *p*(*s*’ |*s*, *a*)(状态转移函数)1.8 Return *U*(回报)1.8 Action-value function(动作价值函数)1.9 Optimal action原创 2022-03-28 16:53:16 · 2955 阅读 · 1 评论