Policy Gradients

最新推荐文章于 2024-07-30 01:27:39 发布

weixin_30691871

最新推荐文章于 2024-07-30 01:27:39 发布

阅读量120

点赞数

原文链接：http://www.cnblogs.com/LincHpins/p/10545122.html

版权

这篇博客只是为了自己记录，思路比较跳跃。

Policy Gradients

不估计局面的价值，转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为，比如说某些资源有限的游戏，我们不可能一直在某一个地方一直获取资源。

更新函数是\(\theta_{t+1}=\theta_t + \alpha \cfrac{\partial J}{\partial \theta}\)，其中\(J(\theta)\)是对当前参数产生的策略的评价，越高越好。

\(J(\theta)\)中，\(\theta\)的影响来自于两方面，一是在特定状态下的行为选择，二是这个策略到每个状态的概率。行为选择的偏导比较好考虑，然而行为造成的“某些高价值的状态没有到达”这件事情的偏导就没有那么形象了。

我们把策略对可能到达状态的影响浓缩在了一个\(\mu (x)\)里，表示在该策略下到达\(x\)的概率。

最后关于这个梯度的计算，我自己有一些想法：

一是通过蒙特卡洛估计，即使状态量巨大或者无限，状态的密度分布依然会把我们带到密度大的状态，我们的\(q\)值也是策略下的\(q\)值，没有统计到的密度小的状态价值再高也会被密度冲淡，影响不大。
二是通过Q-learning or DQN来估计\(q\)值，两个算法相互迭代。

转载于:https://www.cnblogs.com/LincHpins/p/10545122.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30691871

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

策略梯度 (Policy Gradients) 原理与代码实例讲解

AI大模型应用之禅

06-21

1036

策略梯度 (Policy Gradients) 原理与代码实例讲解 1.背景介绍在机器学习和人工智能领域，强化学习（Reinforcement Learning, RL）是一种重要的学习范式。与监督学习和无监督学习不同，强化学习通过与环境的交互来学习策略，以最

Policy Gradients原理与代码实例讲解

AI架构设计之禅

05-21

776

1. 背景介绍 1.1 强化学习的崛起强化学习（Reinforcement Learning，RL）作为机器学习的一个重要分支，近年来取得了令人瞩目的成就，AlphaGo、AlphaStar 等人工智能技术的突破更是将其推向了新的高度。强化学习的核心思想是让智能体（Agent）通过与环境交互，不断学

参与评论您还未登录，请先登录后发表或查看评论

深度强化学习（三）：Policy Gradients

LagrangeSK的博客

05-17

5405

一、基本思想强化学习是一个通过reward来学习正确行为的机制，家族中有很多种不一样的成员，有value-based方法：通过计算value function，根据自己认为的高价值选行为, 比如 Q learning, Deep Q Network（DQN)。也有不通过分析value function，直接输出action的方法，如 Policy Gradients 。那么我们思考一个问题...

【深度强化学习】策略梯度 Policy Gradients

B417科研笔记

06-29

1569

重读《Deep Reinforcemnet Learning Hands-on》，常读常新，极其深入浅出的一本深度强化学习教程。本文的唯一贡献是对其进行了翻译和提炼，加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址：传送门本文是书本第九章，介绍DQN的一种替代：策略梯度方法。在DQN方法中，我们主要是通过深度网络，得到不同状态下不同动作所对应的Q值，然后选取Q值最大的动作。这一策略我们可以表示如下：π(s)=arg⁡maxaQ(s,a) \pi(s)=\arg m a

强化学习PolicyGradients

JasonSparrow_1的博客

03-05

336

Policy Gradients 通过奖惩机制reward，来对选择进行反向传递，从而确定是否需要进行加大，或者减小选择的力度

Policy Gradient

qq_45944185的博客

06-30

493

简介强化学习是一个通过奖惩来学习正确行为的机制。家族中有很多种不一样的成员，有学习奖惩值，根据自己认为的高价值选行为，比如 Q learning, Deep Q Network, 也有不通过分析奖励值，直接输出行为的方法，这就是今天要说的 Policy Gradient 了。甚至我们可以为 Policy Gradients 加上一个神经网络来输出预测的动作。对比起以值为基础的方法，Policy Gradients 直接输出动作的最大好处就是，它能在一个连续区间内挑选动作，而基于值的，比如 Q-lear

什么是策略梯度 Policy Gradients (Reinforcement Learning 强化学习)

08-30

什么是_策略梯度_Policy_Gradients_(Reinforcement_Learning_强化学习)

5.2 Policy Gradients 思维决策 (强化学习 Reinforcement Learning 教学)

08-31

#5.2_Policy_Gradients_思维决策_(强化学习_Reinforcement_Learning_教学)

policygradients：根据奖励梯度更新策略

AI天才研究院

04-27

448

1. 背景介绍 1.1 强化学习与策略梯度强化学习(Reinforcement Learning, RL) 作为机器学习的一个重要分支，专注于训练智能体(agent) 通过与环境的交互来学习如何在复杂环境中做出最优决策。与监督学习和非监督学习不同，强化学习不依赖于预先标记的数据，而是通过试错和奖

Policy Gradients & Actor Critic

x3464的博客

09-26

429

Policy Gradients 直接输出概率 Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受环境信息 (observation), 不同的是他要输出不是 action 的 value, 而是具体的那一个 action, 这样 policy gradient 就跳过了 value 这个阶段. 而且个人认为 Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续

Policy Gradient（策略梯度）

fjfdg666的博客

12-15

训练时需要先初始化policy，然后采样一个episode的数据，更新policy模型参数，基于新policy采样得到新的episode数据，再更新policy模型参数，持续迭代下去。使用场景中，reward一般是正的，由于action是随机采样的，造成一些action未被采样到，那么该未被采样到的action归一化之后的概率偏低，与实际情况不符。的发生概率，即给定环境s，基于policy产生动作a，然后达到新环境，并获取一定的reward，循环执行下去，直到该episode结束，计算得到总概率。

【强化学习】之Policy Gradients

北国觅梦

05-14

564

参考链接：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/5-1-A-PG/ 目录对比Policy Gradients和Q-learning Policy Gradients和Q-learning的反向传递不同之处 Policy Gradients 的核心思想算法对比Po...

强化学习系列 5 : Policy Gradients

女王の专属领地

05-07

1916

强化学习是一个通过奖惩来学习正确行为的机制. 家族中有很多种不一样的成员, 有学习奖惩值, 根据自己认为的高价值选行为, 比如 Q learning, Deep Q Network, 也有不通过分析奖励值, 直接输出行为的方法, 这就是今天要说的 Policy Gradients 了. 甚至我们可以为 Policy Gradients 加上一个神经网络来输出预测的动作. 对比起以值为基础的方法

策略梯度 (Policy Gradient)

热门推荐

ygp12345的博客

10-11

2万+

文章目录策略梯度基本知识什么是策略梯度？强化学习案例策略梯度公式详解如何使你的损失函数更好增加一个基准为每一个action分配不同的权重策略梯度基本知识什么是策略梯度？直接根据状态输出动作或者动作的概率。那么怎么输出呢，最简单的就是使用神经网络啦！我们使用神经网络输入当前的状态，网络就可以输出我们在这个状态下采取每个动作的概率，那么网络应该如何训练来实现最终的收敛呢？我们之前在训练神经网络时，使用最多的方法就是反向传播算法，我们需要一个误差函数，通过梯度下降来使我们的损失最小。但对于强化学习来说，我们

强化学习-Policy Gradients

winycg的博客

03-19

1689

策略网络，即建立一个神经网络模型，通过观察环境状态，直接预测出目前应该执行的策略(Policy)，执行这个策略可以获得最大期望收益。策略网络不只是使用当前的reward作为期望收益，而是使用discounted future reward，即把未来奖励乘上衰减系数γ，γ为略小于1的数，期望收益为r=r1+γr2+γ2r3+⋯+γn−1rnr=r1+γr2+γ2r3+⋯+γn−1rnr=r_{1}+...

RL2_policy_gradients_mainly

MrTeq的专栏

01-14

212

https://flyyufelix.github.io/2017/10/12/dqn-vs-pg.html ***Deep Q Network vs Policy Gradients - An Experiment on VizDoom with Keras http://karpathy.github.io/2016/05/31/rl/ ***Deep Reinforcement...

用pytorch和gym环境编写一个policy gradients神经网络，要求画出loss函数和reward

04-29

好的，我来给你提供一个简单的例子，使用PyTorch和Gym环境编写Policy Gradients神经网络，并可视化其损失函数和奖励。首先，我们需要安装必要的库，包括gym、numpy和pytorch： ``` pip install gym numpy torch ``` 接下来，我们可以定义我们的策略网络和损失函数。在这个例子中，我们将使用一个简单的神经网络作为我们的策略，并采用交叉熵损失函数。这里的策略网络将接受环境状态作为输入，并输出每个动作的概率分布。 ```python import torch import torch.nn as nn import torch.optim as optim class Policy(nn.Module): def __init__(self, input_size, output_size): super(Policy, self).__init__() self.fc1 = nn.Linear(input_size, 128) self.fc2 = nn.Linear(128, output_size) def forward(self, x): x = torch.relu(self.fc1(x)) x = torch.softmax(self.fc2(x), dim=1) return x policy = Policy(input_size, output_size) optimizer = optim.Adam(policy.parameters(), lr=learning_rate) criterion = nn.CrossEntropyLoss() ``` 接下来，我们可以开始训练我们的策略网络。在这个例子中，我们将使用CartPole-v0环境，它的目标是让杆子保持平衡。我们将在每个时步中执行一个动作，并通过策略网络选择一个动作。接着，我们将观察环境的反馈，并计算奖励和损失。最后，我们将更新我们的策略网络，以便它可以更好地预测动作。 ```python import gym env = gym.make('CartPole-v0') for i_episode in range(num_episodes): state = env.reset() rewards = [] log_probs = [] actions = [] for t in range(max_steps): action_probs = policy(torch.FloatTensor(state)) action = torch.multinomial(action_probs, 1).item() log_prob = torch.log(action_probs[action]) actions.append(action) log_probs.append(log_prob) state, reward, done, _ = env.step(action) rewards.append(reward) if done: break discounts = [gamma**i for i in range(len(rewards))] discounted_rewards = [a*b for a,b in zip(rewards, discounts)] cumulative_rewards = [sum(discounted_rewards[i:]) for i in range(len(discounted_rewards))] loss = 0 for log_prob, cumulative_reward in zip(log_probs, cumulative_rewards): loss -= log_prob * cumulative_reward optimizer.zero_grad() loss.backward() optimizer.step() episode_rewards.append(sum(rewards)) episode_losses.append(loss.item()) if i_episode % print_every == 0: print("Episode: {}, Total Reward: {}, Loss: {}".format(i_episode, sum(rewards), loss.item())) ``` 最后，我们可以可视化我们的损失函数和奖励，以便更好地理解我们的策略网络是如何训练的。 ```python import matplotlib.pyplot as plt plt.plot(episode_losses) plt.title("Policy Gradients Loss") plt.xlabel("Episode") plt.ylabel("Loss") plt.show() plt.plot(episode_rewards) plt.title("Policy Gradients Reward") plt.xlabel("Episode") plt.ylabel("Reward") plt.show() ``` 这就是一个简单的Policy Gradients神经网络的实现和可视化。