![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 92
阿姆姆姆姆姆姆姆
庾信平生无萧瑟,暮年诗赋动江关。
展开
-
深度强化学习(DRL)算法 附录 6 —— NLP 回顾之基础模型篇
NLP 的序列属性和 RL 天然适配,所以 NLP 里的一些模型也可以用到 RL 里面,如 Transformer。去年发表的 MATransformer 在一些多智能体任务上超过了 MAPPO,可见 Transformer 在 RL 上有巨大的发展潜力。这篇文章用来回顾 NLP 基础模型。原创 2024-04-13 12:45:20 · 1172 阅读 · 0 评论 -
深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇
在另一半的时间里,第二个句子是从语料库中随机抽取的,标记为“假”。这是因为对于任何确定的位置偏移δ,位置 i+δ 处的位置编码可以线性投影位置 i 处的位置编码来表示。bert 开启了预训练模型的风潮,使用了带掩码的语言模型,具体就是通过大量的数据,模型获取了语言信息抽取的能力,从而可以通过 fine-tune 应用到各种 NLP 任务上。根据 self-attention 的模型结构,改变 X 的输入顺序,不影响 attention 的结果,所以还需要引入额外的位置信息,即位置编码。原创 2024-04-13 12:07:48 · 1275 阅读 · 0 评论 -
深度强化学习(DRL)算法系列文章合集
这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。下个系列会开始介绍 RLXF(包括 RLHF、RLAIF)欢迎关注。奋斗,追求,不达目的,誓不罢休!原创 2024-02-26 23:11:49 · 1266 阅读 · 1 评论 -
深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇
在另一半的时间里,第二个句子是从语料库中随机抽取的,标记为“假”。这是因为对于任何确定的位置偏移δ,位置 i+δ 处的位置编码可以线性投影位置 i 处的位置编码来表示。bert 开启了预训练模型的风潮,使用了带掩码的语言模型,具体就是通过大量的数据,模型获取了语言信息抽取的能力,从而可以通过 fine-tune 应用到各种 NLP 任务上。根据 self-attention 的模型结构,改变 X 的输入顺序,不影响 attention 的结果,所以还需要引入额外的位置信息,即位置编码。原创 2024-02-25 21:15:09 · 923 阅读 · 1 评论 -
深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇
因为强化学习里面有些状态是图片表示的,需要用 CNN 抽取信息,所以对 CNN 要有基础的了解。原创 2024-02-24 08:00:00 · 1388 阅读 · 0 评论 -
深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)
Q 基于 P 的相对熵(以 P 为基准,看 Q 和 P 相差多少),描述了 Q 想要达到和 P 一样的概率分布中间还差了多少信息量,所以相对熵为 0 的时候,Q 和 P 概率同分布。熵和信息量类似,但是区别是熵衡量的是整个系统里的所有事件,所以得乘上每个事件发生的概率,做信息量的加权平均(信息量的期望)。那么这也是信息量用计算机的名次比特来做单位(计算机里 1bit 就是 0,1 两个信息,f(0) = log(1/2) )的原因。那么两个系统之间的熵怎么比较呢,自然而然就有了相对熵的概念。原创 2024-02-23 00:09:03 · 962 阅读 · 0 评论 -
深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)
是高斯分布,和 Q 没有关系,而且 Q 使用的是确定性策略,实际上针对连续动作空间,采用随机策略,并且随机扰动和 Q 相关,才是更合理的,因为不但增加了探索性,而且探索性和 Q 的大小是相关的,Q 越大随机策略的探索性应该越小。介绍了期望 Sarsa 的方法,是一种比 Sarsa(DDPG 是本质上是 Sarsa)更稳定的方法,因为取了期望,相当于考虑了更多的动作,所以也可以用到 DDPG 里。所以为了减小这种误差,前者是为了经验回放采样数据的时候,获得更多的探索性,所以可以随心所欲的探索。原创 2024-02-22 00:20:55 · 1211 阅读 · 1 评论 -
深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)
就像 q-learning 的 td-target 使用的 max 操作使得模型的偏差更大,因为 q 的值被高估了(实际上这也是 double DQN 的改进),高估问题会影响模型的探索性,DDPG 虽然没有 max 操作,但是仍旧有高估问题的可能。lossq 和 lossa 同时更新不合理,下篇文章提出改进DQN 使用的是深度学习版本的 q-learning,我们都知道期望 Sarsa 是比 Q-learning 更稳定的算法,我们也可以从这个角度出发提出改进。),那么就增加了探索性。原创 2024-02-21 00:26:45 · 877 阅读 · 0 评论 -
深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN)
所以我们需要固定一个 NN 的参数,训练一段时间,再把那个得到训练的 NN 的参数 copy 到那个固定参数的 NN。为什么这里没有用重要性采样,因为目标策略的序列和行动策略没关系,不像 MC off-policy 需要用行动策略的采样来评估目标策略的采样。,让 NN 逼近 td-target ,就可以达到减小 td-error 的目的,是不是有监督学习的味道了。所以可以直接采样一系列的 (s,a,r’,s’),用于神经网络的训练,这就是所谓的经验回放。Q-learning(离轨)这就是最原始的 DQN。原创 2024-02-20 00:02:08 · 894 阅读 · 0 评论 -
深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)
状态转移概率一般是不知道的,所以我们需要 model-free 的方法,如 MC 和 TD。原创 2024-02-19 00:27:06 · 1166 阅读 · 1 评论 -
深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代
和贝尔曼方程一样,得到 v*(s) 和 v*(s‘)以及 q*(s,a) 和 q*(s’, a’) 的关系,这就是贝尔曼最优方程的核心思想。得到 v(s) 和 v(s‘)以及 q(s,a) 和 q(s’, a’) 的关系,这就是贝尔曼方程的核心思想。(这里不能把求和替换成 max 的原因是,我们只能让 v* 最优,因为 p 由系统决定,我们无法决定)(4)即把(2)带入(1),把 (1)带入(2)产生的两个等式。即把(3)带入(4),把 (4)带入(3)产生的两个等式。时刻的策略的好坏,我们定义在。原创 2024-02-18 19:50:21 · 875 阅读 · 1 评论 -
深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇
到这里,PPO 算法相关的细节就讲完了,但是 PPO 的代码实现上还有许多细节,可以参考cleanrl是目前我看过的可读性最好的 ppo 代码实现,对具体实现感兴趣的可以看下这个 repo。接下来的文章会介绍 DRL 其他的常用算法,如 DDPG、SAC 等。原创 2024-02-17 14:55:20 · 2776 阅读 · 0 评论 -
深度强化学习(DRL)算法 附录1 —— 贝尔曼公式
根据 Contraction mapping theorem 可知贝尔曼最优公式中的 v(state value) 存在唯一的最优解,并且可能有多种最优策略。原创 2024-02-17 14:46:23 · 1103 阅读 · 1 评论 -
深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇
在之前的文章里介绍了,提出了两个缺点,其中缺点一,在后续提出的 DRL 算法 PPO 解决了,今天我们就来看看大名鼎鼎的 PPO 算法。原创 2024-02-16 00:02:41 · 1474 阅读 · 0 评论 -
深度强化学习(DRL)算法 1 —— REINFORCE
就像引言里所描述的养成习惯的四个步骤,如果我们想让机器也有自己的“习惯”,去掉机器没有的渴求属性,就是强化学习所做的事情 —— 帮机器养成“习惯”,而 DRL 就是使用深度学习的技术去实现强化学习算法。今天是系列文章的第一篇,会介绍最基础的 policy-based 的算法 —— REINFORCE。原创 2024-02-15 10:11:45 · 1128 阅读 · 1 评论