自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 MPE中environment.py复盘

MPE环境分析

2024-05-29 09:44:53 638 1

原创 Progressive Widening

Progressive Widening相关理论

2024-03-04 15:53:38 366

原创 【论文】Continuous Rapid Action Value Estimates阅读笔记

MCTS的改进RAVE

2024-03-04 15:24:28 996

原创 【论文】Monte Carlo Tree Search in Continuous Action Spaces with Execution Uncertainty阅读笔记

KR-UCT

2024-03-03 16:58:28 922

原创 【论文】A Survey of Monte Carlo Tree Search Methods阅读笔记

蒙特卡洛树搜索总结性论文

2024-03-03 14:32:00 989

原创 【代码】MCTS小游戏加加减减代码

有关MCTS算法的小例子

2024-03-02 12:58:48 830

原创 解决error: the following arguments are required问题

解决error: the following arguments are required问题

2024-03-01 20:35:36 663

原创 【代码】合同网colavoidance4

这是有关合同网的算法

2024-02-05 17:44:42 1239

原创 合同网相关

合同网算法

2024-02-02 15:09:40 921

原创 【论文】【蒙特卡洛树搜索】Multi-Level Monte Carlo Actor-Critic阅读笔记

MAC算法

2024-01-26 16:44:12 462

原创 拍卖算法理论

考虑到投标人和商家都期望获得最大的利益,因此不仅投标人之间存在冲突,投标人和商家之间也存在冲突,因为商家希望把商品出售给出价高的投标人,但可能同时出现两个出价一样的投标人,那么商家就需要让投标人进行下一轮报价来确定究竟把商品卖给谁,如果投标人想继续出标这个商品就会报上一个更高的价格,但如果投标人认为没有抬高的必要就会换一个商品进行投标。其中ϵ是一个大于0的常数,是表示投标人的报价更新幅度的,一般可以选取一个较小的值,反映投标人以一个较小的幅度提高对商品的报价。(当投标人已经中标,则不会考虑下一轮报价)

2024-01-19 15:49:24 2112

原创 合同网协议

当节点Agent发现一个适合自身的任务时,它会向管理者Agent提交一个激活请求(该请求可以理解为投标),而管理者Agent可能会收到多个激活请求(多个投标),基于任务信息、自身知识库规则、当前工作状态等,管理者Agent将会选择一个最合适的Agent并给它分配任务,这个Agent就是中标者。管理者的职责包括建立任务通知书、发送给承包商 Agent、接收并评估承包商的投标、从投标中选择最合适的承包商并与之建立合同、监督任务的完成和综合结果。任务简述:对任务的简要描述,是工作者决策是否投标的依据。

2024-01-19 11:23:01 436

原创 FPN结构

FPN结构

2024-01-07 16:59:20 375

原创 Faster R-CNN原理

Faster RCNN理论合集

2024-01-07 16:08:23 1035

原创 蒙特卡洛树搜索MCTS

蒙特卡洛树搜索相关基础知识

2024-01-03 09:47:09 1014

原创 路径规划算法

路径规划相关算基础理论研究

2024-01-02 10:06:29 1633

原创 强化学习与多智能体强化学习(七)——Imitation Learning

Imitation Learning的介绍

2023-12-18 22:40:10 54

原创 强化学习与多智能体强化学习(六)——Actor-Critic

AC知识点

2023-12-18 15:12:30 157

原创 强化学习与多智能体强化学习(五)——Q-Learning

Q-Learning相关知识

2023-12-18 12:50:11 195

原创 强化学习与多智能体强化学习(四)——on-policy和off-policy

从on-policy到off-policy

2023-12-17 10:30:57 69

原创 强化学习与多智能体强化学习(三)——Sparse Reward

稀疏奖励的处理

2023-12-15 11:14:52 87

原创 多智能体任务分配中的智能优化问题

多智能体环境中的智能优化问题

2023-12-07 14:01:37 404 1

原创 【论文】【模糊层次分析】Fuzzy Analytic Hierarchy Process:A performance analysis of various algorithms

模糊层次分析法的主要九大方法学习

2023-11-29 22:52:40 1390 1

原创 层次分析法(AHP)和模糊层次分析法(FAHP)实现

AHP和FAHP的代码实现

2023-11-29 09:30:45 4508 1

原创 层次分析法(AHP)和模糊层次分析法(FAHP)

层次分析法和模糊层次分析法的定义和求解

2023-11-25 10:58:34 12799

原创 【论文】基于goal的分层强化学习

基于goal的分层强化学习论文内容分析

2023-11-14 22:51:34 149

原创 【论文】goal-conditioned框架

Universal Value Function Approximators和Hindsight Experience Replay解读

2023-11-14 19:50:35 198

原创 【HRL】基于选项/技巧和基于目标条件约束有什么区别

基于option框架的分层强化学习方法相当于把任务划分为多个子任务,不同层次的策略在不同的时间尺度上对任务进行抽象,智能体的上层策略负责根据当前的观测状态选择应当执行哪个option,而下层策略即是各个 option中的子策略,负责决策当前的动作、实际地与环境交互。基于目标条件约束的分层强化学习方法是将任务的状态转移过程划分为多个阶段,将智能体从初始状态执行到最终目标状态这一过程划分为多个子目标状态,上层策略决定接下来若干个时间步后应该到达的子目标状态,下层策略负责与环境进行交互完成上层所制定的目标。

2023-11-10 09:36:05 109 1

原创 【代码】Option-Critic框架学习记录

option-critic-arch-master代码学习

2023-11-09 16:40:15 173 1

原创 【论文】The Option-Critic Architecture阅读笔记

The Option-Critic Architecture阅读笔记

2023-11-08 08:51:28 240 1

原创 强化学习与多智能体强化学习(二)——策略梯度

强化学习第二部分策略梯度

2023-11-07 22:34:26 137 1

原创 强化学习与多智能体强化学习(一)

强化学习的笔记

2023-11-06 20:29:26 89

原创 分层强化学习(Hierarchical Reinforcement Learning,HRL)初步了解

分层强化学习(Hierarchical Reinforcement Learning,HRL)初步了解

2023-11-06 14:18:24 652

原创 好用网站汇总

网站汇总

2023-11-01 21:27:17 32 1

原创 MADDPG-MASTER调试笔记(四)——参数调整

论文及代码解读:根据研究需要,我选择的环境是simple_tag,即捕食者环境,现在对此环境的一些参数进行调整,判断效果。

2023-11-01 21:08:51 421 8

原创 【优化】智能优化算法(Matlab端)

免疫算法、蚁群算法、粒子群算法实现及比较

2023-11-01 21:04:39 171 1

原创 MADDPG-MASTER调试笔记(三)——正式调试

在做好前期工作后,正式开始在Pycharm中运行代码,进行代码的检查与运用。一、阅读READ ME。

2023-10-27 18:35:11 687 3

原创 【论文+代码】多智能体深度强化学习

《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文及代码学习

2023-10-27 15:09:54 1314 1

原创 MADDPG-MASTER调试笔记(二)——环境创建

Anaconda安装tensorflow出现Failed building wheel for grpcio问题的解决

2023-10-20 10:05:33 357 1

原创 【优化】智能优化算法(Matlab端)

三种智能优化算法的理论学习

2023-10-19 17:22:43 596

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除