![](https://img-blog.csdnimg.cn/direct/73dde927762d423ca18814182f902f45.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
RL
文章平均质量分 88
完蛋!掉进了强化学习的坑!
wzc-run
不学习就会被AI替代
展开
-
关于DQN过估计的问题
关于DQN过估计的问题:double对DQN离散动作有用,对连续动作的ac框架没有用;clip对ac框架有用,对DQN也有用,但没必要,因为double已经可以了。原创 2024-01-31 23:06:05 · 880 阅读 · 0 评论 -
论文笔记|Not All Tasks Are Equally Difficult MultiTask Reinforcement Learning with Dynamic Depth Routing
论文笔记 Not All Tasks Are Equally Difficult-- Multi-Task Reinforcement Learning with Dynamic Depth Routing提出了一种动态深度路由(D2R)框架,该框架学习策略性地跳过某些中间模块,从而为每个任务灵活选择不同数量的模块;进一步引入了 ResRouting 方法来解决离策略训练期间行为和目标策略之间不同的路由路径问题原创 2024-01-14 20:17:40 · 913 阅读 · 1 评论 -
论文笔记|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
论文阅读笔记,ICLR 2017的OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER,引入了稀疏门控专家混合层(MoE),由多达数千个前馈子网络组成。可训练的门控网络确定用于每个示例的这些专家的稀疏组合。原创 2024-01-08 13:30:26 · 1900 阅读 · 0 评论 -
什么是HER(Handsight Experience Replay)
记录HER算法的核心内容。motivation:为了解决反馈稀疏的问题,修改目标,从而使有效回报数量变多 问题formulation: 稀疏奖励的情况原创 2023-12-31 17:28:11 · 1236 阅读 · 0 评论 -
RL_PPO
经典的强化学习(RL)算法,手写笔记PPO的推导过程原创 2023-03-07 18:35:19 · 165 阅读 · 0 评论