强化学习
文章平均质量分 95
学习强化学习 集合地
如果皮卡会coding
深大本硕。擅长前端,了解一点点c++、java、python、强化学习、语言模型、游戏开发的积木。准备搭建一个新世界ing...
展开
-
【强化学习】QAC、A2C、A3C学习笔记
相比REINFORCE算法,为什么A2C可以提升速度?A2C增加了Critic组件用于估计状态价值,这样Actor可以利用Critic提供的价值信息来更新策略,使得学习过程更加高效。A2C、A3C是on-policy的吗?A2C算法是on-policy的,因为它根据当前策略生成的样本来更新这个策略,这意味着它评估和改进的是同一个策略。A3C算法虽然采用了异步的更新机制,但它本质上仍然是on-policy的。原创 2024-01-23 19:10:08 · 1186 阅读 · 0 评论 -
【强化学习】DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 学习笔记
Dueling DQN修改的是网络结构,算法中在输出层之前分流( dueling )出了两个层,如图所示,一个是优势层,用于估计每个动作带来的优势,输出维度为动作数一个是价值层,用于估计每个状态的价值,输出维度为 1。在传统的DQN中,选择和评估动作的Q值使用相同的网络,这可能导致在某些状态下对某些动作的Q值被高估,从而影响学习的稳定性和最终策略的质量。经验回放:通过存储代理的经验(状态,动作,奖励,新状态)在回放缓存中,并在训练时从中随机抽样,这样做可以打破数据间的时间相关性,提高学习的稳定性和效率。原创 2024-01-17 21:31:54 · 1310 阅读 · 0 评论 -
【强化学习】基于蒙特卡洛MC与时序差分TD的简易21点游戏应用
本次实验所应用的三种策略Q-learning、Sarsa和蒙特卡洛都是解决强化学习问题的算法,它们在学习过程中都通过与环境的交互来优化策略。且都用于值函数估计,这三种算法的目标都是学习状态或状态动作对的值函数,即Q值或V值。更新方式不同:Q-learning: 使用了离线学习的方式,通过选择当前状态下值最大的动作来更新Q值。更新公式中使用了max操作。Sarsa: 使用在线学习的方式,通过选择当前状态下的某个动作来更新Q值。更新公式中使用了当前实际选择的动作。蒙特卡洛: 通过整个回合(原创 2023-12-28 19:49:18 · 1283 阅读 · 0 评论 -
【强化学习】动态规划算法实践
强化学习的DP方法实践:策略迭代Policy Iteration(内含策略评估Policy Evaluation + 策略优化Policy Improvement)+ 价值迭代Value Iteration原创 2023-11-26 16:56:54 · 1073 阅读 · 1 评论 -
【强化学习】基础概念
智能体状态(Agent State)指其内部的信息,而环境状态(Environment State)指外部的环境信息。智能体是进行决策和学习的实体,它能感知环境的状态,并基于策略采取动作以影响环境。智能体的目标是通过与环境的交互获得最大化的累积奖励。环境的状态可能对智能体可见(如游戏中的棋盘状态),也可能对智能体不可见(如对手的策略)。动作是智能体基于观察到的状态所做出的决策或行为,影响环境的转移。在强化学习中,智能体需要在已知最佳动作的基础上进行利用以获得奖励,同时也需要探索未知动作以发现更优的策略。原创 2023-09-30 15:47:00 · 207 阅读 · 0 评论 -
【强化学习】Q-learning训练AI走迷宫
Q-learning是一种基于强化学习的算法,用于解决Markov决策过程(MDP)中的问题。这类问题我们理解为一种可以用有限状态机表示的问题。它具有一些离散的状态state、每一个state可以通过动作action转移到另外一个state。每次采取action,这个action都会带有一些奖励reward(也可以是负数,这样就表示惩罚了)。在Q-learning中,我们有一个智能体(Agent)和一个环境(Environment)。智能体可以在环境中执行动作,并从环境中获取奖励作为反馈。原创 2023-07-27 10:14:28 · 1697 阅读 · 7 评论