两篇论文的分享

最新推荐文章于 2023-01-15 14:38:38 发布

Jormungand123

最新推荐文章于 2023-01-15 14:38:38 发布

阅读量1.3k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jormungand123/article/details/126506284

版权

前言：

假期要结束了，我目前的专业主攻方向也变了。从以前用板子做目标检测到现在做自动驾驶算法的相关内容。虽然目前得重新学做新的项目，得学新的内容，但还是希望保持一个分享的习惯，为像我一样的菜鸟开辟一条小路。

这篇分享主要是分享一下论文中的关键点，是看完论文以后补充文章，而不是代替阅读论文的纯讲解，基础的话就是看了之前分享的那本关于博弈论的书：《博弈论与机制设计》。

1、evolution of social norms and correlated equilibria

本文采用了伴随沟通信号的相关均衡概念（即由有说服力的choreographer给双方提供一个建议，双方若发现choreographer提供的建议是最优对策，则采用建议）。我个人认为核心如下：

而建模：

其中无向图G中的V代表events，而edge则代表两个事件之间可以发生互动和博弈，L是标签，参与者通过L来区分顶点。P就是norms提供给个人的建议，D是参与人对对手的预期(不一定和真实保持一致,但代表参与人的认知),D用来判断是否遵循norms提供的建议P，A是邻接矩阵，用来构建事件空间所用的图。

在这个建模基础上，作者提供了对norms的分类标准（在这篇论文的附录里，并不在论文最后）

简而言之这些标准：

Null：即参与人发现推荐的P并不是最优反应，则采用默认博弈对策（一般为混合纳什均衡）

Rational：参与人发现在对对手的预期中,norms提供的P是最优对策，则会采用norm，这个norm也就是理性的。

Empirically validatable：即一个norm的P是对某一个rational norm的最优对策。

Consistent：一个norm在和自己同样的对策博弈时，P依旧是最优对策。

Inconsistent ：一个norm在和自己同样的对策博弈时，P不再是最优对策。

Best response：一个图中两两顶点之间发生的博弈采取的对策均是最优对策。

最后作者利用这个模型在一个进化博弈的框架下得出了结论：

social norms的进化动力学倾向于制造信念，从本质无意义事件相互作用至相关均衡

注意，上面那个图和论文中不一样，因为原论文图有错误，但是后面作者又发了一篇澄清错误的小文章，里面包含这个正确的图。

下面这个图在附录中有代码，用julia写的，针对两人议价问题。

大概就是random提供随机norms的建议，然后再不断的对V、L、P进行变异，然后看是否能够入侵，最后演化至进化均衡：0.5。

2、Game-Theoretic Planning

这篇论文思路很明确，比前面那篇要好懂很多。

车辆建模用自行车模型，主要面向实时性要求。

竞赛模型主要提供了一系列约束条件。

核心技术点在于：

即原本的小车的目标函数只有尽可能快速到达终点，而本文引入了一项敏感项，即在尽可能快速到达终点的同时考虑尽可能阻止对手到达终点，α我称之为竞争因子，越大则竞争性越强。而后文也有对它的讨论。

然后该文采用了Piecewise Polynomial Trajectory Representation

关键点：

运用了纳什均衡的概念

任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自身的收益。

实际中论文的做法是：先初始化所有人的位置和速度参数，对手的轨迹，然后先算出自身最优轨迹。迭代都是先算对手最优轨迹，再算自己最优轨迹。（这里就是纳什均衡的概念，如果计算出了所有对手的最优轨迹，那此时算出自身最优轨迹，那就意味着自身不能通过单方面改变自己策略来提高收益，而计算对手最优轨迹的办法同样是面对其它人的最优轨迹，也不能单方面提高收益，那矛盾点在于：本来纳什均衡是要同时博弈来达到，而在这计算对手的最优轨迹时，采用的是其他人上一拍的最优轨迹，感觉有种工程应用中简化的意思，但是由于最后计算自身最优轨迹，所以自身轨迹的误差最小，并且只采用规划出的第一拍的轨迹，也降低了误差）

然后文章通过这种建模方式，使得车辆获得了两种新的行为：超车和阻塞对手。

最后文章还给出了一些后续的方向，这篇文章确实质量很高。

后话：

之后的目标是复现第二篇论文的算法，相当于复现项目，应该后面分享会多一些。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Jormungand123 CSDN认证博客专家 CSDN认证企业博客

码龄4年

49: 原创

1万+: 周排名

116万+: 总排名

16万+: 访问

: 等级

633: 积分

7917: 粉丝

85: 获赞

74: 评论

508: 收藏

私信

关注

热门文章

最新评论

autodl实践经验------3
m0_51311895: 想问一下爆显存是怎么解决的
FORCESPRO的使用教程
sky.xu: 为啥我申请老是下不来
FORCESPRO的使用教程
Zhihao_Ke: 大佬，您好，想请教一下，我们在simulink里面部署成功了，但是想放到dSpace里面就会报错，说license不允许自动生成，这种情况应该怎么办哇~
瑞芯微rv1126编译问题汇总
Red_27: 有人解决“can't find package Expect”的问题吗？系统已经安装了expect
关于rknn-toolkit的yolov5的例子
YANG_youth_: 大佬您好，我想问一下我的模型推理完之后outputs只有1个是什么问题？（Pdb）outputs[0] array([[[ 0. , 0. , 0. , ..., 0. , 0. , 0. ], [ 5.0456085, 0. , 0. , ..., 0. , 0. , 0. ], [ 12.614021 , 0. , 0. , ..., 0. , 0. , 0. ], ..., [527.2661 , 592.859 , 0. , ..., 0. , 0. , 0. ], [560.06256 , 592.859 , 0. , ..., 0. , 0. , 0. ], [592.859 , 592.859 , 0. , ..., 0. , 0. , 0. ]]], dtype=float32) (Pdb) outputs[1] *** IndexError: list index out of range

大家在看

【漏洞复现】用友 GRP-U8 bx_dj_check.jsp Sql注入漏洞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。