![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 95
reinforce learning
我思故我在Fighting
AI专业大三
展开
-
[RL] 马尔可夫决策过程基础
强化学习马尔可夫过程基础原创 2024-07-21 12:22:03 · 719 阅读 · 0 评论 -
[RL] Actor-Critic、A2C、A3C、DDPG、TD3基础概述
好几个月之前学的了,当时手懒没总结,突然闲下来补个笔记原创 2024-07-08 15:21:33 · 1166 阅读 · 0 评论 -
[RL]强化学习入门-DQN基础
基础原创 2023-12-08 15:53:52 · 1031 阅读 · 0 评论 -
[RL]DQN、DDQN、DuelingDQN原理、代码实现
因为有时候我们更新的时候,不一定是更新 Q 表格,而是只更新了 V (s),但更新 V (s) 的时候,只要修改 V (s) 的值,Q 表格的值也会被修改。蓝色的锯齿状的线是 DDQN 的 Q 网络所估测出来的 Q 值,蓝色的无锯齿状的线是真正的Q 值,它们是比较接近的。假设估计噪声为高斯,无偏均值为0,误差可正可负,到此并无大碍,但是接下来的更新时的操作计算TD-target的时候,使用了max操作,这导致在这一步的误差始终为正的,造成正的偏差,这就是导致高估的原因。但是在估计的时候,网络是有误差的。原创 2024-03-11 16:05:50 · 2297 阅读 · 0 评论 -
[RL]优先经验回放(PER-DQN)原理及代码实现
DQN变体原创 2024-03-15 20:04:01 · 4466 阅读 · 5 评论 -
[RL]策略梯度REINFORCE
pytorch原创 2024-02-13 23:12:14 · 806 阅读 · 0 评论 -
[论文阅读]Mobility-Aware Cooperative Caching in VEC Based on CAFR
论文:Mobility-Aware Cooperative Caching in Vehicular Edge Computing Based on Asynchronous Federated and DRLJSTSP 2022。原创 2024-08-09 19:40:53 · 297 阅读 · 0 评论 -
Reinforced Causal Explainer for GNN论文笔记
论文笔记原创 2024-07-14 18:24:56 · 949 阅读 · 1 评论 -
User Allocation In MEC: A DRL Approach 论文笔记
论文:ICWS 2021随着对低延迟需求的增加,边缘计算或雾计算逐渐成为主流。当前最先进的技术假设边缘服务器上的等于从边缘服务器提供的的。然而,的与之间通常存在高度的关系,尤其CPU-GPU协同执行,使资源利用率的数学建模异常复杂。目前用于解决问题的算法普遍假设与呈假设是的。然而,实际服务过程中资源使用量是的,难以通过数学建模精确描述。提出一种框架来解决问题,基于与MEC系统的经验和交互逐步学习。DRL Agent在服务延迟阈值约束下学习在某上服务的。DRL Agent。原创 2024-07-21 11:47:50 · 1107 阅读 · 0 评论 -
DROO论文笔记
读论文的笔记原创 2024-07-14 16:11:50 · 1238 阅读 · 1 评论