- 博客(8)
- 收藏
- 关注
原创 MPE环境包下载安装和修复
同样的问题,出现在报错处,主要是用于提醒安装pyglrt包的,修改过程是将'reraise'都改成'raise ImportError',需要将其中的suffix都删除。原因是这个函数没有在新的gym中被删去了,将报错文件multi_discrete.py中的import注释掉,将使用这个命令的代码。目前自动安装得到的包的版本为2.1.2,这个版本的包中不存在这个函数,需要将版本退化到1.5.27.。2、修复完上一个问题出现报错,出现在render函数上,rendering.py。
2025-02-12 17:02:35
416
原创 《<多智能体协同:强化学习方法>——阅读记录》
每个状态视为一个节点,边的权重认为是移动过程中的成本。基于A*算法的边搜索,加上权重可以应对存在障碍的情况,障碍视为成本无限大。死状态——所有可能的状态转换均已被访问的状态;集中式规划:中心管理者处理所有智能体的状态,不需要通讯,但是非常耗时且可能出现单点故障,不适用于智能体多的规划问题。动态规划和贝尔曼方程:DP是一种将大型复杂问题转化为一系列简单问题的优化技术,将大型问题转化为有限个互相重叠的子问题。Dijkstra:寻找源节点到特定目标节点的最短路径,而非源节点到所有其他节点的最短路径。
2024-12-29 21:56:27
437
原创 python中关于进行强化学习中,torch引入sympy的报错
pip uninstall sympy 以及pip install sympy==1.12的方式卸载后再安装就解决了,此处记录一下。有所解答,应用方面不同但是基本上可以认为在安装其他包的时候出现了覆盖问题。主要解决方式就是通过。
2024-12-20 15:04:05
624
原创 完整的对于多维离散动作的ppo算法的学习过程
已知在通过unity环境的mlagents进行ppo实现强化学习过程的方式中,若要实现离散动作和连续动作输出,只需要在Parameter中设定动作的数量即可实现。但是当需要在基础的ppo架构上进行改动,例如增加分层或者改变前面的网络,需要通过gym的方式进行通信进行训练。做完这一步后,通过softmax函数和distributions.Categorical进行取得最终的离散动作的一组动作列表。后续还在研究在网络架构需要微调的地方,基本上的理念和ppo是一致的,有做过的大佬可以给个参考的内容。
2024-12-19 14:17:52
740
原创 使用mlagents实现自己改写python神经网络和unity环境进行交互-特别是MARL过程
1、其中第一个方法使用其中的更新的mlagents安装包,例如使用ml-agents-release-0.14.0,问题有二,一是需要同步更新mlagents包以及mlagents-env包,二是发现在这个包里不存在.com.unity.ml-agents以及.com.unity.ml-agents.extensions包,出现APL交互的端口版本不一致。2、或者使用换一个仿真环境,因为在一般的综述研究中,认为unity更好的用在单智能体,而Mujoco中更适用于python的训练,但是作者还没试验过。
2024-12-18 15:41:51
525
原创 如何解决AttributeError: module ‘networkx‘ has no attribute ‘to_scipy_sparse_matrix‘
增加头文件,发现进入graphmatrix后,其中不存在这个函数,但是存在函数名adjacency_matrix,检查输入发现返回的是。
2024-10-20 22:12:11
537
1
原创 可视化torch的神经网络
在pycharm环境内,在运行DQN过程中,进行数据的查看。使用add_scalar记录每步的过程值,取名为1。1、查看奖励值和步数的曲线。
2023-11-03 17:39:29
131
1
原创 Python的一些报错与计算方式记录——自用
中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/在Pycharm中编辑时候,Imort cv2过后,后续调用cv2时候没有任何代码提示。清华:https://pypi.tuna.tsinghua.edu.cn/simple。阿里云:http://mirrors.aliyun.com/pypi/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http://pypi.sdutlinux.org/
2023-10-31 14:54:52
105
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅