深度强化学习
文章平均质量分 89
天寒心亦热
每天努力一点点,坚持就是胜利!
展开
-
强化学习-深度确定性策略梯度(第5章)
强化学习-深度确定性策略梯度(第5章)原创 2023-08-16 18:49:39 · 203 阅读 · 0 评论 -
强化学习-信任区域策略优化和近端策略优化(第7章)
强化学习-信任区域策略优化和近端策略优化(第7章)原创 2023-08-11 16:59:50 · 281 阅读 · 0 评论 -
Unity-ML-Agents--The behavior name 3DBall01 has not been specified in the trainer configuration.
Unity-ML-Agents--The behavior name 3DBall01 has not been specified in the trainer configuration.原创 2023-06-19 21:37:15 · 201 阅读 · 0 评论 -
Unity-ML-Agents--The type or namespace name ‘MLAgents‘ does not exist in the namespace ‘Unity‘
Unity-ML-Agents--The type or namespace name 'MLAgents' does not exist in the namespace 'Unity' (are you missing an assembly reference?)原创 2023-06-16 09:45:05 · 329 阅读 · 0 评论 -
MADDPG-学习笔记(2)
1.报错1.1AttributeError: 'Scenario' object has no attribute 'benchmark_data'1.2FileNotFoundError: [Errno 2] No such file or directory: './benchmark_files/.pkl'1.3NameError: name 'reward' is not defined2.问题2.1 为何执行程序生成的tmp/policy在系统重启后,会被删除?原创 2023-05-19 16:18:46 · 935 阅读 · 0 评论 -
MADDPG-学习笔记(1)
MADDPG-学习笔记(1)1.报错1.1TypeError: must be str, not NoneType1.4InvalidArgumentError (see above for traceback)1.5NotFoundError (see above for traceback)2.问题原创 2023-05-16 23:21:04 · 1847 阅读 · 4 评论 -
论文解析-基于 Unity3D 游戏人工智能的研究与应用
论文解析-基于 Unity3D 游戏人工智能的研究与应用1.重写AgentAction 方法2.重写CollectObservations 方法3.重写CollectObservations 方法原创 2023-05-07 16:09:27 · 2329 阅读 · 0 评论 -
Unity-ML-Agents--Profiling-Python.md-代码解析
1.Profiling in Python1.1@timed装饰器1.2hierarchical_timer上下文管理器1.3Adding Profiling1.4Parallel execution原创 2023-05-04 09:28:59 · 584 阅读 · 0 评论 -
Unity-ML-Agents--Custom-SideChannels.md-代码解析
可以在c#和Python中创建自己的侧通道,并使用它在两者之间通信自定义数据结构。为了使用侧通道,必须将其实现为Unity和Python类。1.Unity C# 示例1.1StringLogSideChannel类1.2RegisterStringLogSideChannel类2. Python示例2.1StringLogChannel类2.2ML-Agents Python 与 Unity Editor 通信原创 2023-05-03 14:46:52 · 998 阅读 · 0 评论 -
Unity-ML-Agents-Food Collector环境-FoodCollectorSettings.cs
Unity-ML-Agents-Food Collector环境-FoodCollectorSettings.cs1.FoodCollectorSettings.cs1.1FoodCollectorSettings类1.2 Awake()函数1.3EnvironmentReset()1.4ClearObjects()1.5 Update()原创 2023-05-03 09:34:45 · 1132 阅读 · 0 评论 -
Unity-ML-Agents-Sampler.cs
Unity-ML-Agents-Sampler.cs原创 2023-05-02 22:52:13 · 748 阅读 · 0 评论 -
Unity-ML-Agents注意事项及报错、警告等解决方式
Unity-ML-Agents注意事项及报错、警告等解决方式1.注意事项2.警告和报错原创 2023-05-05 14:48:08 · 1942 阅读 · 2 评论 -
Unity-ML-Agents-Soccer Twos环境(3)-AgentSoccer.cs
Unity-ML-Agents-Soccer Twos环境(3)-AgentSoccer.cs1. AgentSoccer.cs1.1 导入命名空间1.2AgentSoccer类1.3Initialize()1.4 MoveAgent()函数1.5OnActionReceived()1.6Heuristic()方法1.7OnCollisionEnter()1.8OnEpisodeBegin()原创 2023-04-27 19:55:29 · 934 阅读 · 2 评论 -
Unity-ML-Agents-Soccer Twos环境(2)-SoccerBallController.cs
Unity-ML-Agents-Soccer Twos环境(2)-SoccerBallController.cs1. SoccerBallController.cs1.1 导入命名空间1.2SoccerBallController类1.3 Start()方法1.4OnCollisionEnter()函数原创 2023-04-27 12:56:06 · 605 阅读 · 0 评论 -
Unity-ML-Agents-Soccer Twos环境(1)-SoccerEnvController.cs
1.SoccerEnvController.cs1.1 导入命名空间1.2SoccerEnvController 类1.3 PlayerInfo类1.4XML 注释标签1.5 定义字段1.6Start() 方法1.7FixedUpdate()方法1.8ResetBall()方法1.9GoalTouched()方法1.10ResetScene() 方法原创 2023-04-26 23:20:48 · 1866 阅读 · 0 评论 -
Unity-ML-Agents-Example Learning Environments-环境解析
Unity-ML-Agents-Example Learning Environments-环境解析(1)1.Push Block2.Cooperative Push Block3.Dungeon Escape4.Soccer Twos5.Worm原创 2023-04-24 21:04:24 · 810 阅读 · 4 评论 -
Unity-ML-Agents--Learning-Environment-Design-Agents.md-代码解读(2)
Unity-ML-Agents--Learning-Environment-Design-Agents.md-代码解读(2)1.Normalization2.Continuous Actions3.Discrete Actions4.Masking Discrete Actions5.Rewards6.Agent Properties7.Defining Multi-agent Scenarios原创 2023-04-24 16:09:04 · 1107 阅读 · 0 评论 -
Unity-ML-Agents--Learning-Environment-Design-Agents.md-代码解读(1)
Unity-ML-Agents--Learning-Environment-Design-Agents.md-代码解读(1)1.Agent.CollectObservations()2.Observable Fields and Properties3.One-hot encoding categorical information原创 2023-04-23 23:50:07 · 735 阅读 · 0 评论 -
Unity-ML-Agents-训练生成的results文件解读-PushBlock
Unity-ML-Agents-训练生成的results文件解读-PushBlock1.push_block_test_021.1 PushBlock1.2 run_logs1.3configuration.yaml1.4PushBlock.onnx原创 2023-04-22 14:28:24 · 767 阅读 · 0 评论 -
Unity-ML-Agents-配置文件解读-PushBlock.yaml
Unity-ML-Agents-配置文件解读-PushBlock.yamllearning_rate_schedule:学习率调整策略,这里是线性调整。network_settings:神经网络设置,包括以下几个:normalize:是否对输入数据进行归一化处理hidden_units:每个隐藏层中神经元的数量num_layers:隐藏层数量vis_encode_type:可视化编码类型,这里是simplereward_signals:奖励信号设置原创 2023-04-22 10:08:54 · 1021 阅读 · 0 评论 -
Unity-ML-Agents-代码解读-RollerBall
Unity-ML-Agents-代码解读-Making a New Learning Environment1.Initialization and Resetting the Agent2. Observing the Environment3.Taking Actions and Assigning Rewards4.问题原创 2023-04-21 21:12:49 · 1150 阅读 · 0 评论 -
Unity-ML-Agents安装
Unity-ML-Agents安装1.下载ML-Agents2.下载Anaconda3.虚拟环境4. 安装cuda和cudnn原创 2023-04-19 23:34:29 · 3146 阅读 · 5 评论 -
深度强化学习-DDPG代码阅读-AandC.py(2)
深度强化学习-DDPG代码阅读-AandC.py(1)编写AandC.py导入包定义权重和偏置初始化器定义ActorNetwork类定义self.update_target_network_params使用Adam优化定义create_actor_network()函数定义 Actor 函数定义CriticNetwork 类critic 目标网络定义create_critic_network()定义Critic函数原创 2023-04-19 10:26:09 · 1177 阅读 · 3 评论 -
深度强化学习-DDPG代码阅读-ddpg.py(1)
深度强化学习-DDPG代码阅读-ddpg.py(1)1.编写ddpg.py1.1 导入需要的包和其他的python文件1.2 定义训练函数train()1.3 定义测试函数test()1.4 定义主函数1.5 根据需要调用训练函数或者测试函数1.6 问题原创 2023-04-17 23:44:33 · 1611 阅读 · 8 评论 -
Python-pop()和popleft()方法
Python-pop()和popleft()函数字典和集合中的 pop() 方法删除元素是无序的,并且在删除时返回被删除的值。列表中的 pop() 方法删除元素是有序的,并且在删除时返回被删除的元素。在使用时,需要根据具体的数据类型和需求选择合适的 pop() 方法。原创 2023-04-17 17:15:30 · 3945 阅读 · 1 评论 -
Python-L1和L2正则化
Python-L1和L2正则化L1 正则化和 L2 正则化是在神经网络中常用的两种正则化技术,用于对权重参数进行惩罚,以减小过拟合现象。L1 正则化对权重参数施加了稀疏性惩罚,因此可以用于特征选择和模型压缩。而 L2 正则化对权重参数施加了平滑性惩罚,因此可以用于缓解共线性问题。原创 2023-04-17 13:45:33 · 947 阅读 · 0 评论 -
强化学习-Double DQN、竞争网络结构和Rainbow(第4章)
强化学习-Double DQN、竞争网络结构和Rainbow(第4章)1.Double DQN、竞争网络结构和Rainbow2.思考题原创 2023-04-26 19:43:44 · 795 阅读 · 0 评论 -
Python-DQN和Dueling Network代码对比阅读(15)-model.py
Python-DQN和Dueling Network代码对比阅读(15)-model.py(1)valuestream是前面定义的状态值网络的输出,输入大小为1(因为状态值是标量),为什么?(2)tf.reduce_mean()函数(3)tensorflow中axis的用法(4)tf.subtract()函数原创 2023-04-16 20:00:17 · 625 阅读 · 0 评论 -
Python-DQN和DDQN代码对比阅读(14)-ddpn.py
Python-DQN和DDQN代码对比阅读定义ALGO变量来选择算法 使用if语句对两种算法做出选择为什么DQN算法使用 np.amax(),DDQN算法使用np.argmax(),二者的区别和联系?one_batch是怎么可以保留终止状态信息的?如何判断done_batch是true还是false?DQN和DDQN算法的相同点和不同点?各自的优点和缺点?原创 2023-04-16 10:42:18 · 1642 阅读 · 0 评论 -
Python-DQN代码阅读(13)
Python-DQN代码阅读(13)data = np.loadtxt('performance.txt')mva = np.zeros((data.shape[0]), dtype=np.float)mva[i] = data[i,1]mva[i] = alpha * data[i,1] + (1.0 - alpha) * mva[i-1]plt.plot(data[:,0], data[:,1]) plt.plot(data[:,0], mva)原创 2023-04-15 23:54:00 · 897 阅读 · 0 评论 -
Python-DQN代码阅读(12)
Python-DQN代码阅读(12)程序终止的条件打印输出的time steps含义为何一个episode打印出来的time steps不一致?打印输出的episode_rewards含义?为何数值不一样,有大有小,还有零?total_t是怎么个变化情况和趋势?epsilon是怎么个变化趋势?len(replay_memory是怎么个变化趋势?原创 2023-04-15 21:07:04 · 787 阅读 · 0 评论 -
Python-DQN代码阅读(11)
Python-DQN代码阅读(11)scope="q",scope="target_q"q_net = QNetwork(scope="q", VALID_ACTIONS=VALID_ACTIONS)target_net = QNetwork(scope="target_q", VALID_ACTIONS=VALID_ACTIONS)原创 2023-04-15 00:36:58 · 287 阅读 · 1 评论 -
Python-DQN代码阅读(10)
Python-DQN代码阅读(10)1.2.1 f = open("experiments/" + str(env.spec.id) + "/performance.txt", "a+")1.2.2 f.write(str(ep) + " " + str(time_steps) + " " + str(episode_rewards) + " " + str(total_t) + " " + str( epsilon) + '\n')1.2.3f.close()1.2.4 env.spec.id原创 2023-04-15 00:21:22 · 371 阅读 · 0 评论 -
Python-DQN代码阅读(9)
Python-DQN代码阅读(8)replay_memory.pop(0)replay_memory.append(Transition(state, action, reward, next_state, done))samples = random.sample(replay_memory, batch_size)q_values_next = target_net.predict(sess, next_states_batch)原创 2023-04-14 23:03:07 · 476 阅读 · 0 评论 -
Python-DQN代码阅读(8)
Python-DQN代码阅读(8)action = np.random.choice(np.arange(len(action_probs)), p=action_probs)env.render()next_state_img, reward, done, info = env.step(VALID_ACTIONS[action])next_state_img = state_processor.process(sess, next_state_img)原创 2023-04-14 20:34:21 · 501 阅读 · 0 评论 -
Python-DQN代码阅读(7)
Python-DQN代码阅读(7)1.1设置ε值1.2 设置时间步长总数1.3主循环贯穿整个回合1.4跟踪时间步长1.5更新目标网络原创 2023-04-14 19:33:59 · 946 阅读 · 0 评论 -
Python-DQN代码阅读(6)-dpn.py
Python-DQN代码阅读(6)(1)导入所需要的包(2)设置游戏并选择有效的操作(3)设置模式(train/test)和开始迭代(4)创建环境(5)创建存储检查点文件的路径和目录(6)定义deep_q_learning()函数 (7)使用遇到的初始随机操作经验填充重放内存原创 2023-04-14 11:01:14 · 1044 阅读 · 0 评论 -
Python-DQN代码阅读-填充回放记忆(replay memory)(5)
Python-DQN代码阅读-填充回放记忆(replay memory)epsilon = max(epsilon_start - float(i) * delta_epsilon, epsilon_end)action_probs = policy(sess, state, epsilon)action = np.random.choice(np.arange(len(action_probs)), p=action_probs)env.render()原创 2023-04-13 21:28:22 · 1172 阅读 · 0 评论 -
Python-DQN代码阅读-初始化经验回放记忆(replay memory)(4)
Python-DQN代码阅读-初始化经验回放记忆(replay memory)state = state_processor.process(sess, state)state = np.stack([state] * 4, axis=2)计算每次更新的 epsilon 的变化量(delta_epsilon)replay_memory = [ ]原创 2023-04-13 20:03:51 · 1105 阅读 · 0 评论 -
Python-代码阅读-epsilon-greedy策略函数(3)
Python-代码阅读-epsilon-greedy策略函数np.ones(num_actions, dtype=float) / float(num_actions)np.expand_dims(observation, 0)max_Q_action = np.argmax(q_values)A[max_Q_action] = 1.0np.zeros(num_actions, dtype=float)原创 2023-04-13 19:31:08 · 1327 阅读 · 0 评论