八岐妖刀-CSDN博客

原创 MPE环境包下载安装和修复

同样的问题，出现在报错处，主要是用于提醒安装pyglrt包的，修改过程是将'reraise'都改成'raise ImportError'，需要将其中的suffix都删除。原因是这个函数没有在新的gym中被删去了，将报错文件multi_discrete.py中的import注释掉，将使用这个命令的代码。目前自动安装得到的包的版本为2.1.2，这个版本的包中不存在这个函数，需要将版本退化到1.5.27.。2、修复完上一个问题出现报错，出现在render函数上，rendering.py。

2025-02-12 17:02:35 416

原创《＜多智能体协同：强化学习方法＞——阅读记录》

每个状态视为一个节点，边的权重认为是移动过程中的成本。基于A*算法的边搜索，加上权重可以应对存在障碍的情况，障碍视为成本无限大。死状态——所有可能的状态转换均已被访问的状态；集中式规划：中心管理者处理所有智能体的状态，不需要通讯，但是非常耗时且可能出现单点故障，不适用于智能体多的规划问题。动态规划和贝尔曼方程：DP是一种将大型复杂问题转化为一系列简单问题的优化技术，将大型问题转化为有限个互相重叠的子问题。Dijkstra：寻找源节点到特定目标节点的最短路径，而非源节点到所有其他节点的最短路径。

2024-12-29 21:56:27 437

原创 python中关于进行强化学习中，torch引入sympy的报错

pip uninstall sympy 以及pip install sympy==1.12的方式卸载后再安装就解决了，此处记录一下。有所解答，应用方面不同但是基本上可以认为在安装其他包的时候出现了覆盖问题。主要解决方式就是通过。

2024-12-20 15:04:05 624

原创完整的对于多维离散动作的ppo算法的学习过程

已知在通过unity环境的mlagents进行ppo实现强化学习过程的方式中，若要实现离散动作和连续动作输出，只需要在Parameter中设定动作的数量即可实现。但是当需要在基础的ppo架构上进行改动，例如增加分层或者改变前面的网络，需要通过gym的方式进行通信进行训练。做完这一步后，通过softmax函数和distributions.Categorical进行取得最终的离散动作的一组动作列表。后续还在研究在网络架构需要微调的地方，基本上的理念和ppo是一致的，有做过的大佬可以给个参考的内容。

2024-12-19 14:17:52 740

原创使用mlagents实现自己改写python神经网络和unity环境进行交互-特别是MARL过程

1、其中第一个方法使用其中的更新的mlagents安装包，例如使用ml-agents-release-0.14.0，问题有二，一是需要同步更新mlagents包以及mlagents-env包，二是发现在这个包里不存在.com.unity.ml-agents以及.com.unity.ml-agents.extensions包，出现APL交互的端口版本不一致。2、或者使用换一个仿真环境，因为在一般的综述研究中，认为unity更好的用在单智能体，而Mujoco中更适用于python的训练，但是作者还没试验过。

2024-12-18 15:41:51 525

qq_56753958的博客

原创 MPE环境包下载安装和修复

原创《＜多智能体协同：强化学习方法＞——阅读记录》

原创 python中关于进行强化学习中，torch引入sympy的报错

原创完整的对于多维离散动作的ppo算法的学习过程

原创使用mlagents实现自己改写python神经网络和unity环境进行交互-特别是MARL过程

原创如何解决AttributeError: module ‘networkx‘ has no attribute ‘to_scipy_sparse_matrix‘

原创可视化torch的神经网络

原创 Python的一些报错与计算方式记录——自用

空空如也

空空如也