博弈论精要-CSDN博客

本文链接：https://blog.csdn.net/qq_32997761/article/details/83823996

什么时候适用博弈论？（博弈论适用场合）

一个人的利益和另一个人的利益有冲突，也就是双方利益不同，双方的每一个策略组合都对双方产生不同的收益，这时候可以考虑用博弈论，辨明最后双方的决策结果。

理解囚徒困境和雪堆模型（鹰鸽博弈）的区别：囚徒困境的纳什均衡是双方都坦白（合作），帕累托最优是双方都抵赖（不合作）；雪堆模型的纳什均衡是对方选择合作，自己选择背叛，不存在帕累托最优。

囚徒困境和雪堆（斗鸡）模型都是对称博弈模型。

分析可知，存在一个尴尬的事实，你就是囚徒困境中如果博弈主体是完全理性，那博弈的结果永远不会到达帕累托最优。
博弈论的几种分类方法：

1.对称博弈、非对称博弈：博弈双方的利益和主体相同，其收益矩阵具有对称性，则为对称博弈，有许多典型例子都属于对称博弈：囚徒困境、鹰鸽博弈等，非对称博弈的例子：入侵者与在位者）
2.非合作博弈、合作博弈：参与者能够联合达成一种具有约束力且可强制执行的博弈类型，强调集体理性，每个参与者之间存在可以自由流动的交换媒介。合作之后博弈各方在群体之中如何分配，取决于博弈各方的力量对比和制度设计。
3.静态博弈：在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；
动态博弈：在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。
4.完全信息博弈：在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息；
不完全信息博弈：如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的准确信息，在这种情况下进行的博弈就是不完全信息博弈。

演化博弈

非对称非合作博弈的基本理论模型如下：

其中x表示群体A选择策略1的比例，群体A的策略集为{A1,A2}。y表示群体B选择策略3的比例为y，群体B的策略集为{B1，B2}。

群体A、B的支付矩阵依次为：

对群体A而言，

选择策略1时的收益：

选择策略2时的收益：

群体A的收益期望：

群体A的复制动态方程：

群体B的方程类似。

演化博弈中两个重要的图象：

不同群体复制动态关系和稳定性图例（用在非对称博弈中）
复制动态相位图：不同比例下导数值得变化情况
三方演化博弈[1]中，采用每一方分析其复制动态方程的方法，最后综合分析三方交集空间的稳定趋势。

演化博弈中的重要概念：

进化稳定策略，ESS，evolutionary stable strategy。当x=1或者x=0时，为稳定状态，可以根据图像来判断。
复制动态方程。复制动态是描述只有对优势策略简单模仿能力的，低理性层次有限理性博弈方动态策略调整的一种机制，其核心是在群体中较成功的策略采用的个体会逐渐增加，可以用动态微分方程或微分方程组。理解为采用成功策略群体中导数值大于零，因此会沿着比例增加的方向变化。
帕累托最优（Pareto Optimality,或Pareto Efficiency）：上帝视角，全局最优
纳什均衡（偏经济学解释）：对每一方觉得决策选择对于塔防的决策选择而言都是最优的，称为最优反应，因而每一方读不会偏离该决策，换句话就是说都是自私选择，使得自己的效用函数最大化。（偏向于私人最优，判断时可以采用固定某一方策略后分析的方法进行判断）
纯策略和混合策略：纯策略就是整个过程都只采用一个策略，不会改变；混合策略就是基于概率选择策略，每个策略都有被选中的可能性
零和博弈，从数学上解释，就是双方的支付矩阵相加为0
Payoff Matric翻译：支付矩阵，收益矩阵，表征选择某个策略时某一种群或个体获得的收益。
演化博弈的策略集不能多，博弈主体不能多！否则动态方程的求解难度极其巨大（随着策略集数量和博弈主体的数量呈现指数倍增长！）。

[1]魏芳芳：三方非对称进化博弈行为分析

001博弈论