![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
博弈论
文章平均质量分 69
码丽莲梦露
大厂在职运筹优化算法工程师
展开
-
强化学习|多智能体深度强化学习(博弈论—>多智能体强化学习)
1 简介近年来,AlphaGo代表的“决策智能备受关注”,即将来临的物联网时代,群体决策智能将成为另一个研究重点。 说到群体决策智能,就免不了提及博弈论。博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈的基本概念,侧重分析理性智能体的博弈结果,即均衡。 然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性很难实现,智能体往往处在不断的策略学习过程中。近年来兴起的多智能强化学习主要研究智能体策略的同步学习和演化问题。...原创 2021-09-24 17:32:19 · 9113 阅读 · 3 评论 -
论文阅读|《Bi-level Actor-Critic for Multi-agent Coordination》(AAAI 2020)(附带源码链接)
1 摘要协调是多智能体系统的基本问题之一。典型的多智能体强化学习(MARL)方法对智能体一视同仁,其目标是在存在多重均衡时将马尔可夫博弈求解到任意的纳什均衡(NE),从而缺乏解决NE选择的方法。在本文中,我们平等地对待Agent,并认为Stackelberg均衡在帕累托优势方面是一个比Nash均衡更好的收敛点,特别是在合作环境中。在马尔可夫对策下,我们正式定义了寻找Stackelberg均衡的双层强化学习问题。我们提出了一种新颖的双层Actor-Critic学习方法,该方法允许Agent...原创 2021-09-24 17:20:01 · 2108 阅读 · 6 评论 -
博弈论系列文章
论文阅读|《基于非合作博弈的废旧机械装备零部件重组策略研究》博弈论——重复博弈和制度建设博弈论——混合博弈和监督博弈博弈论——最后通牒与讨价还价博弈论——懦夫博弈和性别战博弈论——万元陷阱和智猪博弈博弈论——囚犯困境博弈论学习——概念...原创 2021-07-16 15:45:53 · 271 阅读 · 0 评论 -
博弈论——重复博弈和制度建设
1 重复博弈重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。特点:(1)前一阶段的博弈不改变后阶段的博弈结构(2)所有参与人都能预测到博弈过去的历史(3)总的收益是所有收益的曲线之和 可选择的策略:(1)雷锋策略(2)曹操策略(3)冷酷策略,又叫触发策略(4)心太软策略(5)一报还一报策略(tit-for-tat)(6)人.原创 2021-05-23 10:24:42 · 1286 阅读 · 0 评论 -
博弈论——混合博弈和监督博弈
1 混合策略纯策略和混合策略纯策略:如果一个策略要求参与者在每一个给定信息情况下只选择一种特定的行动。混合策略:如果一个策略要求参与者在给定信息情况下以某种概率分布随机地选择不同的行动。案例1:案例2:案例3:浙江大学发研究报告:石头剪刀布百战百胜策略浙江大学、浙江工商大学和中科院理论物理研究所的研究人员通过实验发现了石头剪刀布的一个制胜策略。研究人员招募了360名学生,将他们分成6组,随机配对玩300轮石头剪刀布游戏,在每一轮中获胜的学生将会获得少量人...原创 2021-05-22 22:43:58 · 3357 阅读 · 1 评论 -
博弈论——最后通牒与讨价还价
1 最后通牒博弈是指两人分一笔总量固定的钱,比如100元。方法是:一人提出方案,另外一人表决。如果表决的人同意,那么就按提出的方案来分;如果不同意的话,两人都将一无所得。原创 2021-05-22 21:41:07 · 4484 阅读 · 0 评论 -
博弈论——懦夫博弈和性别战
1 懦夫博弈(又叫斗鸡博弈)均衡结果:A进B退、A退B进C 增加后有没好处,即收益减少,损失变大?有,因为斗起来的可能性减少了A增加又没好处?要适度,过犹不及。注:赢者通吃的行业容易导致过度竞争。如:1 互联网 2畅销书 3演艺界 4博彩业 5战争 6竞技体育奥运会就是一帮最需要运动的人看一帮最需要休息的人做剧烈运动!1.1 案例1964年3月13日夜3时,美国纽约,29岁的酒吧经理凯蒂·吉诺维斯小姐驾车驶向自己在纽约皇后区的家,那是...原创 2021-05-21 17:01:01 · 5663 阅读 · 0 评论 -
博弈论——万元陷阱和智猪博弈
1 万元陷阱现将10000元拍卖给大家,各位互相竞价,以100元为加价单位,直到没有人再加价为止。出价最高者以其所出价格获得该10000元钱,同时,出家第二高的将其所出价格的数量支付给我。请问:您的竞拍策略?这个游戏是耶鲁大学经济学家苏比克(M.Shubik)发明的,像拍卖钱的人几乎屡试不爽地从这拍卖会里“赚到钱”。它是一个具体而微地“人生陷阱”,参与竞价地在这个“陷阱”里越陷越深,不能自拔,最后都付出了痛苦的代价。自古以来,人类为捕杀动物所设的“陷阱”,有三个特征:(1) 有一个明显的原创 2021-05-20 11:27:26 · 1939 阅读 · 1 评论 -
博弈论——囚犯困境
1 囚犯困境及其原因1.1 囚犯困境的来源下图上面的为囚徒困境,下面不是。1.2 囚徒困境的原因表面上看囚犯对自身利益的追求是导致囚犯困境的原因,其实,真正的原因是:囚犯在追求自身利益的同时,以更多损害其他人利益为代价。囚犯困境的根本原因在于:私人成本与社会成本的差异,即个人行为的负外部性。损人利己和损己利人本质上是一样的,是一个硬币的正反两面;从一方来看是损人利己的行为,在另一方面来看是损己利人,问题的关键是所损(失)的部分和所利(得)的部分哪个更多。(盗窃与抢劫).原创 2021-05-19 15:25:53 · 1863 阅读 · 0 评论 -
博弈论学习——概念
知仁者智,自知者明;胜人者力,自胜者强;小胜者术,大胜者德。博:博览全局弈:对弈棋局---->>>>谋定而后动1 推荐书目1 蒋文华:《用博弈的思维看世界》2 张维迎:《博弈论与信息经济学》3 詹姆斯·米勒:《活学活用博弈论——如何利用博弈论在竞争中取胜》4 阿维纳什·K·迪克西特、巴里·J·奈克伯夫:《策略思维》5阿维纳什·K·迪克西特、巴里·J·奈克伯夫:《妙趣横生博弈论》2 概述博弈:是指在一定的游戏规则约束下,基于直接...原创 2021-05-17 11:50:55 · 378 阅读 · 0 评论