win安装MPE环境遇到的问题

Ander7

已于 2022-06-27 23:43:15 修改

阅读量413

点赞数

文章标签： tensorflow python 深度学习

于 2022-06-27 22:49:27 首次发布

本文链接：https://blog.csdn.net/Ander7/article/details/125493206

版权

参考文章：

https://blog.csdn.net/weixin_38989380/article/details/123505264
https://blog.csdn.net/moshiyaofei/article/details/122061374

1、conda create -n py35 python=3.5.4 出错：SyntaxError: invalid syntax

改为：conda create -n py35 python==3.5.4

2、pip install tensorflow1.8.0 出错：ERROR: No matching distribution found for tensorflow1.8.0

当前环境python版本太高了
进入3.5.4的环境再安装：conda activate py35

3、下载tensorflow过慢的问题

换个镜像：pip install tensorflow==1.8.0 -i https://pypi.douban.com/simple

4、下载tensorflow出错：ERROR: Failed building wheel for grpcio

https://blog.csdn.net/weixin_47807140/article/details/120961424

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ander7

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
win安装MPE环境遇到的问题

win安装MPE环境遇到的问题
复制链接

扫一扫

【MADDPG（MPE）——环境配置与用法详细介绍（多智能体强化学习）)】

weixin_38989380的博客

03-15

1万+

MADDPG（MPE）——环境配置与用法详细介绍（多智能体强化学习）MADDPG（MPE）介绍MPE环境安装教程前期准备功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 MADDPG（MPE）介绍 MPE（Multi-Agent

mpe环境介绍

adeya的博客

03-31

370

https://blog.csdn.net/azeyeazeye/article/details/118366382?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-118366382-blog-123505264.235%5Ev27%5Epc_relevant_3mothn_strategy_and_data_recovery&depth_1-

参与评论您还未登录，请先登录后发表或查看评论

Python安装tensorflow过程中出现“No matching distribution found for tensorflow”的解决办法

weixin_45041745的博客

11-14

1万+

Python安装tensorflow过程中出现“No matching distribution found for tensorflow”的解决办法

No matching distribution found for tensorflow 解决方法

weixin_46713695的博客

06-10

9094

安装tensorflow和keras

安装TensorFlow报错：No matching distribution found for tensorflow

最新发布

06-06

【作品名称】：基于 python+mindspore框架训练多智能体强化学习中的mpe环境【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目...

RL-MPE:用DDPGMADDPGDQNMADDPG+advantage实验 OpenAI开源的MPE环境

05-13

RL-MPE用DDPG/MADDPG/DQN/MADDPG+advantage实验 OpenAI开源的MPE环境OpenAI MPE: OpenAI MADDPG：自己加入了DQN，与Maddpg+advantage算法。但效果不如Maddpg。另，在游戏中设置了“吃掉消失”的现象。但训练策略与...

安川MPE720程序导入详细流程步骤.docx

01-03

《安川MPE720程序导入与SigmaWin+伺服参数导入详解》在工业自动化领域，安川的MPE720系列PLC和SigmaWin+伺服调试软件是广泛应用的设备。本教程将详细阐述如何进行MPE720 PLC程序的导入以及通过SigmaWin+进行伺服...

MPE.rar_mpe

09-19

中点圆算法是基于Bresenham算法的一种变体，主要解决的是在像素级别的二维平面上绘制完整圆形的问题。它通过迭代计算，逐行绘制圆周上的像素点，大大减少了计算量，提高了绘制效率。算法的核心思想在于每次迭代时...

安川MPE720软件序列号

05-23

安川MPE720软件序列号

tensorflow使用中遇到的问题

u014210048的专栏

08-13

3218

【关键词：TensorFlow问题】 ========================================================================================== C:\Users\Administrator\anaconda3\python.exe D:/Users/Administrator/PycharmProjects/MachineLearning/00.practice/test2.py Traceback (most recent cal

MPE环境安装-强化学习的小demo

大鱼治不了水的博客

12-15

5329

这里写自定义目录标题MPE的前世今生MPE安装准备工作环境配置开始安装测试关于如何将你的虚拟环境和pycharm统一 MPE的前世今生 MPE（Multi-Agent Particle Environment）是由 OpenAI 开源的一款多智能体强化学习实验平台，以 OpenAI 的 gym 为基础，使用 Python 编写而成。它创造了一个简单的多智能体粒子世界，粒子们可以进行连续的观察和离散的动作。 MPE安装准备工作在GitHub网站下载MPE的安装包：https://github.com/o

Win10+Open AI +MADDPG环境配置详细终结版

qq_40089637的博客

08-31

5605

Win10+Open AI +MADDPG环境配置我，菜拐拐，今天又来了。开学第一天，更新一下，Open AI的MADDPG环境配置问题。观看者需要满足以下条件：电脑上安装有anaconda，如果没有就参照这里。电脑上没有乌邦图并且没有双系统，单纯在win10系统上配置。（要是有乌邦图或者双系统，参照这个大佬的专栏。） open ai 论文链接 open ai 代码链接正文来啦安装anaconda。电脑上有的话，请忽略这个步骤。创建虚拟环境。本人在D盘下装的anaconda，

【无标题】解决MAPPDG使用MPE环境时切换环境的问题

adeya的博客

04-12

207

切换环境时，DISPLAY要先设置为0，至少跑1轮，再设置为1，就可以显示正常运行了 #TOC你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z 重做：Ctrl/Command + Y 加粗：Ctrl/Comm

2021-11-01

qq_33033931的博客

11-01

383

跑maac的一些问题记录环境安装创建虚拟环境安装openAI baselines安装MPE环境(有问题，先不装这个)安装pytorchcuda 和 cudnn（）安装gym安装tensorboard 和 tensorboard-pytorch功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的

多智能体环境MPE simple_tag障碍物位置修改

qq_45215296的博客

10-25

1691

修改多智能体MPE环境中simple_tag障碍物初始位置。

maddpg结合优先经验回放和mpe环境 tensorflow代码

05-17

以下是使用TensorFlow实现MADDPG算法并结合优先经验回放和MPE环境的代码。代码中包含注释以帮助理解。 ```python import numpy as np import tensorflow as tf import random from mlagents.envs import UnityEnvironment from mlagents.envs import BrainInfo # 超参数 BUFFER_SIZE = int(1e6) # 经验回放缓冲区大小 BATCH_SIZE = 128 # 批量大小 GAMMA = 0.99 # 折扣因子 TAU = 1e-3 # 目标网络更新速率 LR_ACTOR = 1e-3 # Actor网络学习率 LR_CRITIC = 1e-3 # Critic网络学习率 UPDATE_EVERY = 2 # 更新网络的时间步数 NUM_UPDATES = 10 # 每次更新网络的次数 # 神经网络模型 class Actor(tf.keras.Model): def __init__(self, state_size, action_size): super(Actor, self).__init__() self.fc1 = tf.keras.layers.Dense(256, activation='relu') self.fc2 = tf.keras.layers.Dense(128, activation='relu') self.fc3 = tf.keras.layers.Dense(action_size, activation='tanh') def call(self, state): x = self.fc1(state) x = self.fc2(x) x = self.fc3(x) return x class Critic(tf.keras.Model): def __init__(self, state_size, action_size): super(Critic, self).__init__() self.fc1 = tf.keras.layers.Dense(256, activation='relu') self.fc2 = tf.keras.layers.Dense(128, activation='relu') self.fc3 = tf.keras.layers.Dense(1, activation=None) self.fc4 = tf.keras.layers.Dense(256, activation='relu') self.fc5 = tf.keras.layers.Dense(128, activation='relu') self.fc6 = tf.keras.layers.Dense(1, activation=None) def call(self, state, action): xs = tf.concat([state, action], axis=1) x1 = self.fc1(xs) x1 = self.fc2(x1) x1 = self.fc3(x1) x2 = self.fc4(xs) x2 = self.fc5(x2) x2 = self.fc6(x2) return x1, x2 # 优先经验回放类 class PrioritizedReplay: def __init__(self, buffer_size, batch_size): self.buffer_size = buffer_size self.batch_size = batch_size self.buffer = [] self.priorities = np.zeros((buffer_size,), dtype=np.float32) self.pos = 0 self.alpha = 0.5 self.beta = 0.5 self.beta_increment_per_sampling = 0.001 def add(self, state, action, reward, next_state, done): max_priority = np.max(self.priorities) if self.buffer else 1.0 experience = (state, action, reward, next_state, done) if len(self.buffer) < self.buffer_size: self.buffer.append(experience) else: self.buffer[self.pos] = experience self.priorities[self.pos] = max_priority self.pos = (self.pos + 1) % self.buffer_size def sample(self): if len(self.buffer) == self.buffer_size: priorities = self.priorities else: priorities = self.priorities[:self.pos] probs = priorities ** self.alpha probs /= probs.sum() indices = np.random.choice(len(self.buffer), self.batch_size, p=probs) samples = [self.buffer[idx] for idx in indices] total = len(self.buffer) weights = (total * probs[indices]) ** (-self.beta) weights /= weights.max() self.beta = np.min([1., self.beta + self.beta_increment_per_sampling]) return indices, samples, weights def update_priorities(self, batch_indices, batch_priorities): for idx, priority in zip(batch_indices, batch_priorities): self.priorities[idx] = priority # MADDPG算法类 class MADDPG: def __init__(self, state_size, action_size, num_agents): self.state_size = state_size self.action_size = action_size self.num_agents = num_agents self.actors = [Actor(state_size, action_size) for _ in range(num_agents)] self.critics = [Critic((state_size+action_size)*num_agents, 1) for _ in range(num_agents)] self.target_actors = [Actor(state_size, action_size) for _ in range(num_agents)] self.target_critics = [Critic((state_size+action_size)*num_agents, 1) for _ in range(num_agents)] for i in range(num_agents): self.target_actors[i].set_weights(self.actors[i].get_weights()) self.target_critics[i].set_weights(self.critics[i].get_weights()) self.buffer = PrioritizedReplay(BUFFER_SIZE, BATCH_SIZE) self.actor_optimizer = [tf.keras.optimizers.Adam(LR_ACTOR) for _ in range(num_agents)] self.critic_optimizer = [tf.keras.optimizers.Adam(LR_CRITIC) for _ in range(num_agents)] self.t_step = 0 def act(self, obs): obs = np.array(obs) actions = [] for i in range(self.num_agents): action = self.actors[i](obs[i][np.newaxis,:], training=False) actions.append(action.numpy()) actions = np.concatenate(actions, axis=0) return actions def step(self, state, action, reward, next_state, done): self.buffer.add(state, action, reward, next_state, done) self.t_step = (self.t_step + 1) % UPDATE_EVERY if self.t_step == 0 and len(self.buffer.buffer) > BATCH_SIZE: for _ in range(NUM_UPDATES): indices, samples, weights = self.buffer.sample() self.learn(samples, weights) self.update_targets() self.buffer.update_priorities(indices, weights) def learn(self, samples, weights): states = np.array([sample[0] for sample in samples]) actions = np.array([sample[1] for sample in samples]) rewards = np.array([sample[2] for sample in samples]) next_states = np.array([sample[3] for sample in samples]) dones = np.array([sample[4] for sample in samples]) for i in range(self.num_agents): # 计算Q值 with tf.GradientTape(persistent=True) as tape: target_actions = [self.target_actors[j](next_states[j][np.newaxis,:], training=False) for j in range(self.num_agents)] target_actions = np.concatenate(target_actions, axis=0) target_qs = self.target_critics[i]((next_states.reshape(-1, self.state_size*self.num_agents), target_actions)) target_qs = target_qs.numpy().reshape(-1, self.num_agents) q_targets = rewards[:,i][:,np.newaxis] + (GAMMA * target_qs * (1 - dones[:,i][:,np.newaxis])) critic_qs = self.critics[i]((states.reshape(-1, self.state_size*self.num_agents), actions.reshape(-1, self.action_size*self.num_agents))) critic_loss = tf.reduce_mean(weights * (q_targets - critic_qs)**2) critic_grads = tape.gradient(critic_loss, self.critics[i].trainable_variables) self.critic_optimizer[i].apply_gradients(zip(critic_grads, self.critics[i].trainable_variables)) # 计算Actor梯度 with tf.GradientTape() as tape: actor_actions = [self.actors[j](states[:,j,:], training=False) if j == i else self.actors[j](states[:,j,:], training=True) for j in range(self.num_agents)] actor_actions = np.concatenate(actor_actions, axis=0) actor_loss = -tf.reduce_mean(self.critics[i]((states.reshape(-1, self.state_size*self.num_agents), actor_actions))) actor_grads = tape.gradient(actor_loss, self.actors[i].trainable_variables) self.actor_optimizer[i].apply_gradients(zip(actor_grads, self.actors[i].trainable_variables)) def update_targets(self): for i in range(self.num_agents): self.target_actors[i].set_weights(TAU*np.array(self.actors[i].get_weights())+(1-TAU)*np.array(self.target_actors[i].get_weights())) self.target_critics[i].set_weights(TAU*np.array(self.critics[i].get_weights())+(1-TAU)*np.array(self.target_critics[i].get_weights())) # 环境 env_name = "MPE/3DBall" env = UnityEnvironment(file_name=env_name) brain_name = env.brain_names[0] brain = env.brains[brain_name] env_info = env.reset()[brain_name] state_size = env_info.vector_observations.shape[1] action_size = brain.vector_action_space_size num_agents = len(env_info.agents) maddpg = MADDPG(state_size, action_size, num_agents) scores = [] scores_window = deque(maxlen=100) for i_episode in range(10000): env_info = env.reset()[brain_name] obs = env_info.vector_observations score = np.zeros(num_agents) while True: actions = maddpg.act(obs) env_info = env.step(actions)[brain_name] next_obs = env_info.vector_observations rewards = env_info.rewards dones = env_info.local_done maddpg.step(obs, actions, rewards, next_obs, dones) obs = next_obs score += rewards if np.any(dones): break scores_window.append(np.max(score)) scores.append(np.max(score)) print('\rEpisode {}\tAverage Score: {:.2f}'.format(i_episode, np.mean(scores_window)), end="") if i_episode % 100 == 0: print('\rEpisode {}\tAverage Score: {:.2f}'.format(i_episode, np.mean(scores_window))) if np.mean(scores_window)>=0.5: print('\nEnvironment solved in {:d} episodes!\tAverage Score: {:.2f}'.format(i_episode, np.mean(scores_window))) break env.close() ```