前言:
假期要结束了,我目前的专业主攻方向也变了。从以前用板子做目标检测到现在做自动驾驶算法的相关内容。虽然目前得重新学做新的项目,得学新的内容,但还是希望保持一个分享的习惯,为像我一样的菜鸟开辟一条小路。
这篇分享主要是分享一下论文中的关键点,是看完论文以后补充文章,而不是代替阅读论文的纯讲解,基础的话就是看了之前分享的那本关于博弈论的书:《博弈论与机制设计》。
1、evolution of social norms and correlated equilibria
本文采用了伴随沟通信号的相关均衡概念(即由有说服力的choreographer给双方提供一个建议,双方若发现choreographer提供的建议是最优对策,则采用建议)。我个人认为核心如下:
而建模:
其中无向图G中的V代表events,而edge则代表两个事件之间可以发生互动和博弈,L是标签,参与者通过L来区分顶点。P就是norms提供给个人的建议,D是参与人对对手的预期(不一定和真实保持一致,但代表参与人的认知),D用来判断是否遵循norms提供的建议P,A是邻接矩阵,用来构建事件空间所用的图。
在这个建模基础上,作者提供了对norms的分类标准(在这篇论文的附录里,并不在论文最后)
简而言之这些标准:
Null:即参与人发现推荐的P并不是最优反应,则采用默认博弈对策(一般为混合纳什均衡)
Rational:参与人发现在对对手的预期中,norms提供的P是最优对策,则会采用norm,这个norm也就是理性的。
Empirically validatable:即一个norm的P是对某一个rational norm的最优对策。
Consistent:一个norm在和自己同样的对策博弈时,P依旧是最优对策。
Inconsistent :一个norm在和自己同样的对策博弈时,P不再是最优对策。
Best response:一个图中两两顶点之间发生的博弈采取的对策均是最优对策。
最后作者利用这个模型在一个进化博弈的框架下得出了结论:
social norms的进化动力学倾向于制造信念,从本质无意义事件相互作用至相关均衡
注意,上面那个图和论文中不一样,因为原论文图有错误,但是后面作者又发了一篇澄清错误的小文章,里面包含这个正确的图。
下面这个图在附录中有代码,用julia写的,针对两人议价问题。
大概就是random提供随机norms的建议,然后再不断的对V、L、P进行变异,然后看是否能够入侵,最后演化至进化均衡:0.5。
2、Game-Theoretic Planning
这篇论文思路很明确,比前面那篇要好懂很多。
车辆建模用自行车模型,主要面向实时性要求。
竞赛模型主要提供了一系列约束条件。
核心技术点在于:
即原本的小车的目标函数只有尽可能快速到达终点,而本文引入了一项敏感项,即在尽可能快速到达终点的同时考虑尽可能阻止对手到达终点,α我称之为竞争因子,越大则竞争性越强。而后文也有对它的讨论。
然后该文采用了Piecewise Polynomial Trajectory Representation
关键点:
运用了纳什均衡的概念
任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。
实际中论文的做法是:先初始化所有人的位置和速度参数,对手的轨迹,然后先算出自身最优轨迹。迭代都是先算对手最优轨迹,再算自己最优轨迹。(这里就是纳什均衡的概念,如果计算出了所有对手的最优轨迹,那此时算出自身最优轨迹,那就意味着自身不能通过单方面改变自己策略来提高收益,而计算对手最优轨迹的办法同样是面对其它人的最优轨迹,也不能单方面提高收益,那矛盾点在于:本来纳什均衡是要同时博弈来达到,而在这计算对手的最优轨迹时,采用的是其他人上一拍的最优轨迹,感觉有种工程应用中简化的意思,但是由于最后计算自身最优轨迹,所以自身轨迹的误差最小,并且只采用规划出的第一拍的轨迹,也降低了误差)
然后文章通过这种建模方式,使得车辆获得了两种新的行为:超车和阻塞对手。
最后文章还给出了一些后续的方向,这篇文章确实质量很高。
后话:
之后的目标是复现第二篇论文的算法,相当于复现项目,应该后面分享会多一些。