Stackelberg博弈

Stackelberg最早来源于经济学。

Stackelberg安全博弈模型主要包含领导者L和跟随者F。

Stackelberg安全博弈是在同时考虑领导者和跟随者策略的情况下,最大化领导者收益的策略游戏。

在Stackelberg安全博弈中领导者首先确定自身的混合策略,跟随者通过观察得到领导者的策略信息,然后选择能够最大化自身收益的策略进行博弈,根据策略执行动作跳转到下一状态。

在这里插入图片描述
Stackelberg安全博弈领导者-跟随者模型适用于攻防信息不对等的场景。

假设1. 攻击者是智能而理性的决策主体.攻击者不会发动无利可图的攻击。

假设2. 攻击者总是追求攻击收益最大化.例如, 攻击者偏向于对目标资源具有最大损害的攻击方式。

在攻防博弈过程中, 攻击者和防御者都希望通过最优的策略来最大化他的收益, 所以我们假定他们是理性的、合理的.在以上两条合理假设的基础上, 可以将攻击者与防御者 (系统) 的矛盾冲突关系描述为策略型攻防博弈模型, 从而通过计算该博弈的纳什均衡获得攻击意图和最优的防御策略。
在这里插入图片描述
Markov decision process, MDP是基于马尔可夫理论的随机动态系统的最优决策过程。MDP可以表示为一个五元组(S,A,T,γ,R)(S,A,T,γ,R),其中每个元素的定义如下: S:决策者在所处环境中所有可能状态的有限集合。A:决策者能够采取的动作集合。T(s,a,s)∈[0,1]T(s,a,s)∈[0,1]:当前状态到下一状态的转移概率函数。γ∈[0,1)γ∈[0,1):折扣因子,可以保证无限步长的情况下回报的收敛性。R(s,a,s)R(s,a,s):回报函数,防御者在状态ss中采取动作aa获得回报。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值