博弈论、竞价机制和AI

本文探讨了博弈论在多智能体系统(MAS)中的应用,特别是在解决智能体之间的协调问题。介绍了博弈论的基本概念,如Nash均衡,并通过囚徒困境举例说明。此外,文章还讨论了拍卖(竞价机制)如何模拟现实世界中的资源分配问题,特别是如何通过博弈论设计拍卖机制以实现最优资源分配。最后,对比了第一价格密封拍卖和第二价格密封拍卖的优劣,强调了第二价格密封拍卖在达到平衡状态方面的优势。
摘要由CSDN通过智能技术生成

这个题目是不是非常lofty!好的,这是小辣鸡笔者边复习边写的,学的浅,还漏洞百出,望指正!这篇lecture的名字叫game theory and auction,这门课有关AI,名字就是这么来的。


首先,博弈论

MAS,也就是Multi-Agent System,多agent系统,感觉等于没翻译,这个重点也就在agent上,agent原意是代理人的意思,wiki上对intelligent agent(智能agent)的解释是一个具有goal-directed的entity,我的理解是agent是具有我们研究目标特点的理想化模型。比如我们研究扫地机器人的算法,那么主体就是机器人,它具有的特点是:有体积(不许撞墙)、能运动、能观察周围环境(传感器),我们就很自然的把它模化成一个在方格子间运动的圆圈,放到各种环境的网格里,根据各种不同的环境观察到不同的pattern,或者更高级的可以加入寄存器存储状态,对目标进行研究。我们会发现我们并不去考虑机器人没电怎么办、掉到马桶里怎么办、天上掉下来陨石砸碎了怎么办,使用agent研究问题可以帮助我们focus on重点,总的来说,就是省心。

对于上面提到的扫地机器人,我们只会考虑机器人本身的action,比如当机器人东边有面墙的时候应该怎么做,也就是整个这个系统里,我只需要考虑我自己,我并不需要去猜墙会怎么动。然而MAS就不一样了,MAS会考虑Agents之间的协调问题,他们共存的方法,比如他们如何交流、如何合作,对于AI问题来说,这些agent都是goal-directed,也就是有自己明确目标的,MAS会增加考虑如果别人挡我道了我怎么办。
博弈论就是借助这样一个系统系统进行研究的,它假设它的agents都是理性的利己主义者,不存在altruistic的人(诶呦想想好心寒),当然,每个agent的goal就是自己利益的最大化!

最有名的例子就是Prisoner’s Dilemma
在这里插入图片描述
两个犯人合伙犯罪被抓,把他们分开审问,如果两人都招了(cooperate),那么每人判3年,如果一个人招另一个不招(deny),那么招的人一年,不招的5年,如果两人都不招,那警察叔叔没办法,只能根据现有证据没人判2两年,如果你是罪犯的话,你会选哪个呢?反正我一开始的直觉选不招,咱俩一人两年多好啊,naive。。。

从理论上解决这个问题就要引入Normal-Form Game的概念,这是博弈论中最简单的问题。NF game可以表示成一个元组(N,A,u),系统中有N个agents,每个Agent可以做的行为都在A中,u就是每个Agent对应做某件事对自己产生的作用。拿罪犯的问题来说,N是两个人,每个罪犯的A都只有招和不招两个,每个罪犯的u就是自己被判多少年刑。那么博弈论的最终结论是什么呢,这里要引入一个叫Nash Equilibrium的概念,这个概念又简单又厉害,它认为系统达到每个agent的利益都不会由于自己的变动而增加的时候就达到了平衡状态(equilibrium),这里很明显,如果两个罪犯,或者说两个agent都是rational的话(非常理智),他们的目的肯定是让自己的被判刑最少,如果P1选择了不招,那么P2一定选择招,这样P1判5年,P2只判1年,这样P1肯定不干,因为如果在这个情况下它也选择招,那它的刑罚就从5年降到3年,好的,现在不管P2怎么选,它的刑罚都不可能少于3年,这样就博弈论来说就达到了平衡,所以如果警官设计了一套这样的规则,那就是天网恢恢疏而不漏的!

在实际中,我们并不能确定自己的某种行为就一定能给自己带来某种收益,我们刚才帮助agent判断问题的时候模型化agent的利益(interest)使用的是preference(偏好)的方法,因为P1很确定如果它选招的话给自己带来的收益比不招大,5>3。当问题复杂后,博弈论则引入utility function的方法进行判断。
(刚刚我都是尽量把数学符号表示成冗余的语言来说明,这样既有利于我复习记忆,也有利于读者看(如果真的有读者的话),如果你想看数学公式,请尽情wiki!)
在这里插入图片描述
这就是utility function的general形式,也就是agent做一个决定能给自己带来全部可能收益乘以这种可能性的概率 之和。
加上utility function之后问题就好像困难了,那么下面问题更加困难,诶,博大精深的博弈论!
先举个例子,扫地机器人在探测到前方即将和扫地机器人二号撞到一起的时候,它百分百确定自己要倒车(假设只能前进或后退),那么倒车这个动作就是百分百确定的,如果一个agent的所有决策都是百分百确定的话,那我们就称这种决策方法叫pure strategy;然鹅,并不是所有事情都是这么简单,比如我们炒股,我们觉得80%的可能性股票要涨,黄金跌,20%的可能黄金涨股票跌,那么你怎么做决策呢(不要和我说对冲= =),好吧,可能是我的例子举的不好,agent如果只能把钱全部放到一个里面的话,它会设置一个概率,20%的可能性投黄金,80%的可能性投股票,这样的决策就叫mixed strategy。个人觉得博弈论在其中用来预测最终结果,而做决策还是要用mdp之类的(这点我真的非常unsure,我只是提一下,如果有人觉得不对请告诉我!)。

最后再介绍一个零和博弈的概念(Strictly Competitive Games),这个的意思就是 ∑ n = 1 N u n = 0 \sum_{n=1}^Nu_n=0 n=1Nun=0,非常惨烈,所有agent的utility加一起得零,丝毫容不下对方,蛋糕就这么大,抢去吧!

竞价机制(Auction)

直接叫它拍卖好了,这个

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值