博弈论与拍卖机制在AI中的应用-CSDN博客

本文链接：https://blog.csdn.net/weixin_43478877/article/details/83825441

本文探讨了博弈论在多智能体系统（MAS）中的应用，特别是在解决智能体之间的协调问题。介绍了博弈论的基本概念，如Nash均衡，并通过囚徒困境举例说明。此外，文章还讨论了拍卖（竞价机制）如何模拟现实世界中的资源分配问题，特别是如何通过博弈论设计拍卖机制以实现最优资源分配。最后，对比了第一价格密封拍卖和第二价格密封拍卖的优劣，强调了第二价格密封拍卖在达到平衡状态方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个题目是不是非常lofty！好的，这是小辣鸡笔者边复习边写的，学的浅，还漏洞百出，望指正！这篇lecture的名字叫game theory and auction，这门课有关AI，名字就是这么来的。

首先，博弈论

MAS，也就是Multi-Agent System，多agent系统，感觉等于没翻译，这个重点也就在agent上，agent原意是代理人的意思，wiki上对intelligent agent（智能agent）的解释是一个具有goal-directed的entity，我的理解是agent是具有我们研究目标特点的理想化模型。比如我们研究扫地机器人的算法，那么主体就是机器人，它具有的特点是：有体积（不许撞墙）、能运动、能观察周围环境（传感器），我们就很自然的把它模化成一个在方格子间运动的圆圈，放到各种环境的网格里，根据各种不同的环境观察到不同的pattern，或者更高级的可以加入寄存器存储状态，对目标进行研究。我们会发现我们并不去考虑机器人没电怎么办、掉到马桶里怎么办、天上掉下来陨石砸碎了怎么办，使用agent研究问题可以帮助我们focus on重点，总的来说，就是省心。

对于上面提到的扫地机器人，我们只会考虑机器人本身的action，比如当机器人东边有面墙的时候应该怎么做，也就是整个这个系统里，我只需要考虑我自己，我并不需要去猜墙会怎么动。然而MAS就不一样了，MAS会考虑Agents之间的协调问题，他们共存的方法，比如他们如何交流、如何合作，对于AI问题来说，这些agent都是goal-directed，也就是有自己明确目标的，MAS会增加考虑如果别人挡我道了我怎么办。
博弈论就是借助这样一个系统系统进行研究的，它假设它的agents都是理性的利己主义者，不存在altruistic的人（诶呦想想好心寒），当然，每个agent的goal就是自己利益的最大化！

最有名的例子就是Prisoner’s Dilemma
在这里插入图片描述
两个犯人合伙犯罪被抓，把他们分开审问，如果两人都招了（cooperate），那么每人判3年，如果一个人招另一个不招（deny），那么招的人一年，不招的5年，如果两人都不招，那警察叔叔没办法，只能根据现有证据没人判2两年，如果你是罪犯的话，你会选哪个呢？反正我一开始的直觉选不招，咱俩一人两年多好啊，naive。。。

从理论上解决这个问题就要引入Normal-Form Game的概念，这是博弈论中最简单的问题。NF game可以表示成一个元组(N,A,u)，系统中有N个agents，每个Agent可以做的行为都在A中，u就是每个Agent对应做某件事对自己产生的作用。拿罪犯的问题来说，N是两个人，每个罪犯的A都只有招和不招两个，每个罪犯的u就是自己被判多少年刑。那么博弈论的最终结论是什么呢，这里要引入一个叫Nash Equilibrium的概念，这个概念又简单又厉害，它认为系统达到每个agent的利益都不会由于自己的变动而增加的时候就达到了平衡状态（equilibrium），这里很明显，如果两个罪犯，或者说两个agent都是rational的话（非常理智），他们的目的肯定是让自己的被判刑最少，如果P1选择了不招，那么P2一定选择招，这样P1判5年，P2只判1年，这样P1肯定不干，因为如果在这个情况下它也选择招，那它的刑罚就从5年降到3年，好的，现在不管P2怎么选，它的刑罚都不可能少于3年，这样就博弈论来说就达到了平衡，所以如果警官设计了一套这样的规则，那就是天网恢恢疏而不漏的！

在实际中，我们并不能确定自己的某种行为就一定能给自己带来某种收益，我们刚才帮助agent判断问题的时候模型化agent的利益（interest）使用的是preference（偏好）的方法，因为P1很确定如果它选招的话给自己带来的收益比不招大，5>3。当问题复杂后，博弈论则引入utility function的方法进行判断。
（刚刚我都是尽量把数学符号表示成冗余的语言来说明，这样既有利于我复习记忆，也有利于读者看（如果真的有读者的话），如果你想看数学公式，请尽情wiki！）
在这里插入图片描述
这就是utility function的general形式，也就是agent做一个决定能给自己带来全部可能收益乘以这种可能性的概率之和。
加上utility function之后问题就好像困难了，那么下面问题更加困难，诶，博大精深的博弈论！
先举个例子，扫地机器人在探测到前方即将和扫地机器人二号撞到一起的时候，它百分百确定自己要倒车（假设只能前进或后退），那么倒车这个动作就是百分百确定的，如果一个agent的所有决策都是百分百确定的话，那我们就称这种决策方法叫pure strategy；然鹅，并不是所有事情都是这么简单，比如我们炒股，我们觉得80%的可能性股票要涨，黄金跌，20%的可能黄金涨股票跌，那么你怎么做决策呢（不要和我说对冲= =），好吧，可能是我的例子举的不好，agent如果只能把钱全部放到一个里面的话，它会设置一个概率，20%的可能性投黄金，80%的可能性投股票，这样的决策就叫mixed strategy。个人觉得博弈论在其中用来预测最终结果，而做决策还是要用mdp之类的（这点我真的非常unsure，我只是提一下，如果有人觉得不对请告诉我！）。