酸酸甜甜我最爱-CSDN博客

原创 Progressive Widening

Progressive Widening相关理论

2024-03-04 15:53:38 366

原创【论文】Continuous Rapid Action Value Estimates阅读笔记

MCTS的改进RAVE

2024-03-04 15:24:28 996

原创【论文】Monte Carlo Tree Search in Continuous Action Spaces with Execution Uncertainty阅读笔记

KR-UCT

2024-03-03 16:58:28 922

原创【论文】A Survey of Monte Carlo Tree Search Methods阅读笔记

蒙特卡洛树搜索总结性论文

2024-03-03 14:32:00 989

原创解决error: the following arguments are required问题

解决error: the following arguments are required问题

2024-03-01 20:35:36 663

原创【论文】【蒙特卡洛树搜索】Multi-Level Monte Carlo Actor-Critic阅读笔记

MAC算法

2024-01-26 16:44:12 462

考虑到投标人和商家都期望获得最大的利益，因此不仅投标人之间存在冲突，投标人和商家之间也存在冲突，因为商家希望把商品出售给出价高的投标人，但可能同时出现两个出价一样的投标人，那么商家就需要让投标人进行下一轮报价来确定究竟把商品卖给谁，如果投标人想继续出标这个商品就会报上一个更高的价格，但如果投标人认为没有抬高的必要就会换一个商品进行投标。其中ϵ是一个大于0的常数，是表示投标人的报价更新幅度的，一般可以选取一个较小的值，反映投标人以一个较小的幅度提高对商品的报价。（当投标人已经中标，则不会考虑下一轮报价）

2024-01-19 15:49:24 2112

原创合同网协议

当节点Agent发现一个适合自身的任务时，它会向管理者Agent提交一个激活请求（该请求可以理解为投标），而管理者Agent可能会收到多个激活请求（多个投标），基于任务信息、自身知识库规则、当前工作状态等，管理者Agent将会选择一个最合适的Agent并给它分配任务，这个Agent就是中标者。管理者的职责包括建立任务通知书、发送给承包商 Agent、接收并评估承包商的投标、从投标中选择最合适的承包商并与之建立合同、监督任务的完成和综合结果。任务简述：对任务的简要描述，是工作者决策是否投标的依据。

2024-01-19 11:23:01 436

原创 FPN结构

FPN结构

2024-01-07 16:59:20 375

原创 Faster R-CNN原理

Faster RCNN理论合集

2024-01-07 16:08:23 1035

原创蒙特卡洛树搜索MCTS

蒙特卡洛树搜索相关基础知识

2024-01-03 09:47:09 1014

原创路径规划算法

路径规划相关算基础理论研究

2024-01-02 10:06:29 1633

原创强化学习与多智能体强化学习（七）——Imitation Learning

Imitation Learning的介绍

2023-12-18 22:40:10 54

原创强化学习与多智能体强化学习（六）——Actor-Critic

AC知识点

2023-12-18 15:12:30 157

原创强化学习与多智能体强化学习（五）——Q-Learning

Q-Learning相关知识

2023-12-18 12:50:11 195

原创强化学习与多智能体强化学习（四）——on-policy和off-policy

从on-policy到off-policy

2023-12-17 10:30:57 69

原创强化学习与多智能体强化学习（三）——Sparse Reward

稀疏奖励的处理

2023-12-15 11:14:52 87

原创多智能体任务分配中的智能优化问题

多智能体环境中的智能优化问题

2023-12-07 14:01:37 404 1

原创【论文】【模糊层次分析】Fuzzy Analytic Hierarchy Process：A performance analysis of various algorithms

模糊层次分析法的主要九大方法学习

2023-11-29 22:52:40 1390 1

原创层次分析法（AHP）和模糊层次分析法（FAHP）实现

AHP和FAHP的代码实现

2023-11-29 09:30:45 4508 1

原创层次分析法（AHP）和模糊层次分析法（FAHP）

层次分析法和模糊层次分析法的定义和求解

2023-11-25 10:58:34 12799

原创【论文】基于goal的分层强化学习

基于goal的分层强化学习论文内容分析

2023-11-14 22:51:34 149

原创【论文】goal-conditioned框架

Universal Value Function Approximators和Hindsight Experience Replay解读

2023-11-14 19:50:35 198

原创【HRL】基于选项/技巧和基于目标条件约束有什么区别

基于option框架的分层强化学习方法相当于把任务划分为多个子任务，不同层次的策略在不同的时间尺度上对任务进行抽象，智能体的上层策略负责根据当前的观测状态选择应当执行哪个option，而下层策略即是各个 option中的子策略，负责决策当前的动作、实际地与环境交互。基于目标条件约束的分层强化学习方法是将任务的状态转移过程划分为多个阶段，将智能体从初始状态执行到最终目标状态这一过程划分为多个子目标状态，上层策略决定接下来若干个时间步后应该到达的子目标状态，下层策略负责与环境进行交互完成上层所制定的目标。

2023-11-10 09:36:05 109 1

空空如也

空空如也