- 博客(41)
- 收藏
- 关注
原创 【论文】Monte Carlo Tree Search in Continuous Action Spaces with Execution Uncertainty阅读笔记
KR-UCT
2024-03-03 16:58:28
922
原创 解决error: the following arguments are required问题
解决error: the following arguments are required问题
2024-03-01 20:35:36
663
原创 拍卖算法理论
考虑到投标人和商家都期望获得最大的利益,因此不仅投标人之间存在冲突,投标人和商家之间也存在冲突,因为商家希望把商品出售给出价高的投标人,但可能同时出现两个出价一样的投标人,那么商家就需要让投标人进行下一轮报价来确定究竟把商品卖给谁,如果投标人想继续出标这个商品就会报上一个更高的价格,但如果投标人认为没有抬高的必要就会换一个商品进行投标。其中ϵ是一个大于0的常数,是表示投标人的报价更新幅度的,一般可以选取一个较小的值,反映投标人以一个较小的幅度提高对商品的报价。(当投标人已经中标,则不会考虑下一轮报价)
2024-01-19 15:49:24
2112
原创 合同网协议
当节点Agent发现一个适合自身的任务时,它会向管理者Agent提交一个激活请求(该请求可以理解为投标),而管理者Agent可能会收到多个激活请求(多个投标),基于任务信息、自身知识库规则、当前工作状态等,管理者Agent将会选择一个最合适的Agent并给它分配任务,这个Agent就是中标者。管理者的职责包括建立任务通知书、发送给承包商 Agent、接收并评估承包商的投标、从投标中选择最合适的承包商并与之建立合同、监督任务的完成和综合结果。任务简述:对任务的简要描述,是工作者决策是否投标的依据。
2024-01-19 11:23:01
436
原创 【论文】【模糊层次分析】Fuzzy Analytic Hierarchy Process:A performance analysis of various algorithms
模糊层次分析法的主要九大方法学习
2023-11-29 22:52:40
1390
1
原创 【论文】goal-conditioned框架
Universal Value Function Approximators和Hindsight Experience Replay解读
2023-11-14 19:50:35
198
原创 【HRL】基于选项/技巧和基于目标条件约束有什么区别
基于option框架的分层强化学习方法相当于把任务划分为多个子任务,不同层次的策略在不同的时间尺度上对任务进行抽象,智能体的上层策略负责根据当前的观测状态选择应当执行哪个option,而下层策略即是各个 option中的子策略,负责决策当前的动作、实际地与环境交互。基于目标条件约束的分层强化学习方法是将任务的状态转移过程划分为多个阶段,将智能体从初始状态执行到最终目标状态这一过程划分为多个子目标状态,上层策略决定接下来若干个时间步后应该到达的子目标状态,下层策略负责与环境进行交互完成上层所制定的目标。
2023-11-10 09:36:05
109
1
原创 【论文】The Option-Critic Architecture阅读笔记
The Option-Critic Architecture阅读笔记
2023-11-08 08:51:28
240
1
原创 分层强化学习(Hierarchical Reinforcement Learning,HRL)初步了解
分层强化学习(Hierarchical Reinforcement Learning,HRL)初步了解
2023-11-06 14:18:24
652
原创 MADDPG-MASTER调试笔记(四)——参数调整
论文及代码解读:根据研究需要,我选择的环境是simple_tag,即捕食者环境,现在对此环境的一些参数进行调整,判断效果。
2023-11-01 21:08:51
421
8
原创 MADDPG-MASTER调试笔记(三)——正式调试
在做好前期工作后,正式开始在Pycharm中运行代码,进行代码的检查与运用。一、阅读READ ME。
2023-10-27 18:35:11
687
3
原创 【论文+代码】多智能体深度强化学习
《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文及代码学习
2023-10-27 15:09:54
1314
1
原创 MADDPG-MASTER调试笔记(二)——环境创建
Anaconda安装tensorflow出现Failed building wheel for grpcio问题的解决
2023-10-20 10:05:33
357
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人