强化学习
文章平均质量分 78
Hoyyyaard
来自珠江中下游985本硕 研究方向为大模型与Embodied AI
展开
-
(RL强化学习)A2C PPO DDPG理论和具体算法流程
文章目录ACPPO(proximal Policy Optimization)DDPG(deep deterministic policy gradient)深度确定性策略梯度算法ps:笔记参考了强化学习–从DQN到PPO, 流程详解白话强化学习ACActor:输入状态S 输出策略选择动作Critic:负责计算每个动作的分数TD-errorTD-error就是Actor带权重更新的值Critic只需要最小化TD-error以此更新网络AC中的C估算的是V值而不原创 2022-04-18 15:47:42 · 4444 阅读 · 0 评论 -
(RL强化学习)Imitation Learning
文章目录Imitation learningBahavior CloningInverse Reinforcement LearningFrameworkImitation learningactor 可以跟环境互动,actor无法从环境得到reward只有一个expert论证怎么解决这个问题人为设定reward可能造成不可控的问题Bahavior Cloningexpert做什么 actor就做什么相当于监督学习 training data需要搜集(s,a)的信息原创 2022-04-05 08:38:36 · 481 阅读 · 0 评论 -
(RL强化学习)Sparse Reward
文章目录Sparse RewardReward ShapingCuriosityCurriculum LearningReverse Curriculum GenerationHierarchical RLSparse Reward很多情况下环境中的reward是稀疏的 agent很难得到rewardReward Shaping开发者刻意设计rewardexample:比如小孩学习 如第二种情况要是study的reward永远是-1 那小孩只会选第一种action 所以可以人为加上一些re原创 2022-04-03 08:42:43 · 516 阅读 · 0 评论 -
(RL强化学习)Actor-Critic
文章目录Actor-CriticActor-CriticAdvantage ACAsynchronous Advantage ACActor-Criticpolicy gradient 中accumulate reward较不稳定 分布较大一个方法是取accmulate reward的期望值Actor-Criticaccmulate reward的期望值就是Qfunction出来的值 Q的定义:在state 采取 action知道游戏结束得到accmulate reward的期望原创 2022-04-02 09:16:17 · 371 阅读 · 0 评论 -
(RL强化学习)Q-learning
文章目录Q-learningState Value Function如何估算(训练)State Value FunctionMCTDMC VS TDQ function(state-action value function)how to use Q function:Q-learningTarget NetworkExplorationReplay BufferTypical Q-learning AlgorithmDouble DQNMulti-step (Balance between MC and原创 2022-04-01 09:12:32 · 1283 阅读 · 0 评论 -
(RL强化学习)PPO
文章目录PPO(proximal Policy Optimization)On-policy Off-policy为什么需要Off-PolicyImportant SamplingOff-policy的gradientPPOPPO(proximal Policy Optimization)On-policy Off-policyOn-policy:跟环境互动的agent 和 要learn的agent是同一个Off-policy:跟环境互动的agent 和 要learn的agent不是同一个为什原创 2022-03-30 23:12:14 · 445 阅读 · 0 评论 -
(RL强化学习)强化学习基础知识
文章目录Basic ComponentsActorCritic网络训练Q-learningActor + CriticA2C Advantage Actor-CriticA3C Asynchtonous Advantage Actor-CriticBack propagationInverse RLPolicy GradientPolicyExampleGradientBasic Components以Video Game为例Actor:遥杆Env:游戏界面Reward Funct原创 2022-03-30 22:10:22 · 3929 阅读 · 0 评论