目录
Lecture 1
- 博弈模型输入: ( S 1 , u 1 ) , ( S 2 , u 2 ) , . . . , ( S n , u n ) {(S_1,u_1),(S_2,u_2),...,(S_n,u_n)} (S1,u1),(S2,u2),...,(Sn,un)
- S i S_i Si为第 i i i个参与者的策略集合
- u i u_i ui为第 i i i个参与者的效用函数,参数为所有 n n n个参与者所有策略的集合 ( s 1 , s 2 , . . . , s n ) (s_1,s_2,...,s_n) (s1,s2,...,sn)
- 定义: 称策略 s i s_i si相对于 s i ′ s^{\prime}_{i} si′强绝对占优的策略, 若对于任意 s − i ∈ S − i s_{-i}∈S_{-i} s−i∈S−i, 有 u i ( s i , s − i ) > u i ( s i ′ , s − i ) u_i(s_i,s_{-i})\gt u_i(s^{\prime}_{i},s_{-i}) ui(si,s−i)>ui(si′,s−i)
- 定义: 称策略 s i s_i si相对于 s i ′ s^{\prime}_{i} si′弱绝对占优的策略, 若对于任意 s − i ∈ S − i s_{-i}∈S_{-i} s−i∈S−i, 有 u i ( s i , s − i ) ≥ u i ( s i ′ , s − i ) u_i(s_i,s_{-i})\ge u_i(s^{\prime}_{i},s_{-i}) ui(si,s−i)≥ui(si′,s−i)
- 定义: 称策略 s ∗ ∈ S 1 × S 2 × … × S n s^{*}∈S_1×S_2×…×S_n s∗∈S1×S2×…×Sn是一个纯纳什均衡(PNE)对于博弈 ( S 1 , u 1 ) , ( S 2 , u 2 ) , . . . , ( S n , u n ) {(S_1,u_1),(S_2,u_2),...,(S_n,u_n)} (S1,u1),(S2,u2),...,(Sn,un), 若对于任意 i i i以及任意 s i ∈ S i s_i∈S_i si∈Si,有 u i ( s i ∗ , s − i ∗ ) > u i ( s i , s − i ∗ ) u_i(s^{*}_{i},s^{*}_{-i})\gt u_i(s_{i},s^{*}_{-i}) ui(si∗,s−i∗)>ui(si,s−i∗)
- 定义: 称混合策略 σ ∗ ∈ Δ ( S 1 ) × Δ ( S 2 ) × … × Δ ( S n ) \sigma^{*}∈\Delta(S_1)×\Delta(S_2)×…×\Delta(S_n) σ∗∈Δ(S1)×Δ(S2)×…×Δ(Sn)是一个纳什均衡对于博弈 ( S 1 , u 1 ) , ( S 2 , u 2 ) , . . . , ( S n , u n ) {(S_1,u_1),(S_2,u_2),...,(S_n,u_n)} (S1,u1),(S2,u2),...,(Sn,un)若对于任意 i i i以及任意 s i ∈ S i s_i∈S_i si∈Si,有 u i ( σ i ∗ , σ − i ∗ ) ≥ u i ( s i , σ − i ∗ ) u_i(\sigma^{*}_{i},\sigma^{*}_{-i})\ge u_i(s_{i},\sigma^{*}_{-i}) ui(σi∗,σ−i∗)≥ui(si,σ−i∗)
- 如石头剪刀布博弈中的纳什均衡是混合策略 σ 1 = σ 2 = ( 1 3 , 1 3 , 1 3 ) \sigma_1=\sigma_2=(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}) σ1=σ2=(31,31,31)
课后习题
- 如果用绝对占优策略来删除行列的方法得到最后一个方格, 证明这是一个纳什均衡
- 证明: 石头剪刀布中(1/3,1/3,1/3)的混合策略是唯一的纳什均衡
下节课的内容
- Single Item Auction: 单品拍卖
- Setup: 1个商品, 1个卖家, n n n个买家
- 买家 i i i对商品有一个价值估计 v i v_i vi, 约等于愿意付出的最高价额, v i v_i vi对除买家 i i i外的所有其他人都是未知
- 效用模型: quaslinear utility, 准线性模型
- 如果未能拍得商品, 则 u = 0 u=0 u=0
- 如果最终拍得商品, 则 p = v i − p p=v_i-p p=vi−p
- Sealed-Bid Auctions 封存标价拍卖
- Setup:
- 每个买家同时提交竞价 b i b_i bi, 只有一次竞价机会且结果对除卖家外的所有人都不可见
- 卖家决定谁是赢家
- 卖家决定赢家应当付多少钱
- 显然第二步应当选取出价最高者
- 可能的第三步策略:
- First-price-auction: 一价拍卖, 赢家出其所报的价钱
- Second-price-auction: 次价拍卖
Lecture 2
- 2nd-price/Vickrey Auction: 次价拍卖, 竞价最高者付第二高竞价者所出的价格
- 一价拍卖机制存在漏洞, 不能使得每个人都足够诚实, 因而引出次价拍卖
- Claim1: 在一个次价拍卖中, 每个竞价这有一个占优策略,
b
i
⇐
v
i
b_i\Leftarrow v_i
bi⇐vi, 比如每个竞价这都出自己的估值
v
i
v_i
vi, 事实上也是如此
- 证明:
- 对于给定的 i i i, v i v_i vi和其他的竞价 b − i b_{-i} b−i, 显然第 i i i个人的效用在竞价出 v i v_i vi时得到了最大化
- 令 B = m a x j ≠ i b i B = max_{j\ne i}b_i B=maxj=ibi, 即除了第 i i i个人外所有人竞价的最大值
- 注意因为在次价拍卖中, 第 i i i的效用要么是0, 要么是 B − v i B-v_i B−vi
- 证明:
- Claim2: 在次价拍卖中, 如果说真话, 就不会得到负的效用
- 因为成交价格对于竞价成功者来说一定是小于
- 定理: Vickrey auction是awesome的
- Vickrey action是dominant-strategy incentive compatible, 即SSIC
- 即Claim1+Claim2的结论, 每个人说真话是占优策略, 且不会得到负的效用
- 如果竞价者是可以信赖的, 则拍卖最大化了社会剩余/社会福利
- 社会剩余/社会福利 = ∑ i = 1 n v i x i x i ∈ { 0 , 1 } \sum_{i=1}^n v_i x_i \space x_i ∈ \{0,1\} ∑i=1nvixi xi∈{0,1},当第 i i i个人赢得了拍卖, x i x_i xi为1, 否则为0
- Vickrey auction是可以在多项式时间内实现的
- 案例分析: Sponsored Search Auction
- 每次搜索, 就会实时发生一次拍卖
- 商品: 搜索结果页面上的 k k k个广告位
- 竞价者: 对于搜索结果页面有兴趣的商家
- 注意: k k k个广告位不是相同, 排在越靠前的广告位价值越高
- 令 α j \alpha_j αj为第 j j j个广告位被点击的概率, 即CTR
- 假设:
- α 1 ≥ α 2 ≥ . . . ≥ α k \alpha_1\ge \alpha_2\ge ... \ge \alpha_k α1≥α2≥...≥αk
- α j \alpha_j αj 是相互独立的
- 竞价者 i i i对每一次点击都有一个私有的评估价格 v i v_i vi, 搜索引擎与其他竞价者都无法知道, 搜索引擎与其他竞价者都无法知道, 从而会得到 v i ∗ α j v_i*\alpha_j vi∗αj
- 目标:
- 设计一个DSIC拍卖
- 最大化社会剩余, 即 m a x i m i z e ∑ i = 1 n v i ∗ α i maximize \sum_{i=1}^n v_i*\alpha_i maximize∑i=1nvi∗αi, 其中 x i x_i xi是第 i i i个广告位目标被点击的概率(广告位 i i i被分配给了 i i i), 否则为0
- 可以在多项式时间内得出结果
- 方法:
- Step1: 若竞价者诚信竞价, 那么应该怎么分配使得最大化剩余以及确保算法的时间复杂度为多项式时间
- Step2: 给定Step1的回答, 需要确定定价策略使得是一个DSIC拍卖
- 答案: 按照竞价高低的顺序从前到后依次分配各个广告位, 即第
j
j
j高的竞价者分配第
j
j
j个广告位
- 假设最终是 α i \alpha_i αi与 v i v_i vi对应, 显然 v i v_i vi应当是单调不增的, 这样才能使得 ∑ i = 1 n v i ∗ α i \sum_{i=1}^n v_i*\alpha_i ∑i=1nvi∗αi取得最大值
- Myerson’s引理:
- Single-parameter environment
- n n n个竞价者, 第 i i i个竞价者对拍卖品有一个私有的估值 v i v_i vi/单位
- feasible allocations: X = { x 1 , x 2 , . . . , x n } X = \{x_1,x_2,...,x_n\} X={x1,x2,...,xn}, 其中 x i x_i xi是第 i i i个竞价者得到的单位商品数量
- 举个例子:
- Single-Item Auction: 所有可能的分配方案 X = { ( 1 , 0 , . . . , 0 ) , ( 0 , 1 , . . . , 0 ) , ( 0 , 0 , . . . , 1 ) } X=\{(1,0,...,0),(0,1,...,0),(0,0,...,1)\} X={(1,0,...,0),(0,1,...,0),(0,0,...,1)}
- Sponsored Search Auction: X X X为如何分配 k k k个广告位的方法
- 我们仍然在Sealed-Bid Auction的环境下研究这个问题
- 收集所有的竞价 b ⃗ = { b 1 , b 2 , . . . , b n } \vec b=\{b_1,b_2,...,b_n\} b={b1,b2,...,bn}
- 分配规则, 选择 X ⃗ ( b ⃗ ) ∈ X ⊆ R n \vec X(\vec b)∈X\subseteq R^n X(b)∈X⊆Rn, X X X为一个N维向量
- 付款规则: 选择 p ( b ⃗ ) ∈ R n p(\vec b)∈R^n p(b)∈Rn
- 第 i i i个人的效用在 b ⃗ \vec b b上等于 v i ∗ x i ( b ⃗ ) − p i ( b ⃗ ) v_i*x_i(\vec b)-p_i(\vec b) vi∗xi(b)−pi(b)
- 重点是如何确定付款规则使得 p i ( b ⃗ ) ∈ [ 0 , b i ∗ X i ( b ⃗ ) ] p_i(\vec b)∈[0, b_i*X_i(\vec b)] pi(b)∈[0,bi∗Xi(b)], 即确保卖家不会倒贴, 竞价者不会得到负的效用
- 定义: 一个分配规则
X
⃗
(
⋅
)
\vec X(·)
X(⋅)是可以实施的(implementable), 若存在一种付款规则
p
(
⋅
)
p(·)
p(⋅)使得
(
X
⃗
,
p
)
(\vec X,p)
(X,p)是DSIC
- 付款规则1: 将商品给到出价最高的竞价者?
- 付款规则2: 将商品给到出价第二高的竞价者?
- Sponsored Search Auction中的分配方案是否是DSIC的?
- 定义: 一个分配规则 X ⃗ ( ⋅ ) \vec X(·) X(⋅)是单调的(monotone), 若对于任意 i i i和任意 b − i b_{-i} b−i, X ( z , b − i ) X(z,b_{-i}) X(z,b−i)是不减的在它的所有竞价 z z z中, 即高竞价者将会获得更多的商品
- Myerson’s引理内容
- 一个分配规则 X ⃗ ( ⋅ ) \vec X(·) X(⋅)是可以实施的等价于 X ⃗ ( ⋅ ) \vec X(·) X(⋅)是单调的
- 在这种情况下, 存在唯一的付款规则 p ( ⋅ ) p(·) p(⋅)使得 ( X ⃗ , p ) (\vec X,p) (X,p)是DSIC
- p ( ⋅ ) p(·) p(⋅)是可以被一个直接的公式给出(TBD)
- 推论: 不会把商品出售给第二高的竞价者, Sponsored Search Auction中的策略是可以实施的
- Myerson’s引理证明(Slide P.21)
- 考虑一个分配规则 X ⃗ ( ⋅ ) \vec X(·) X(⋅), 若 ( X ⃗ , p ) (\vec X,p) (X,p)是DSIC, 那么 p ( ⋅ ) p(·) p(⋅)应该是什么样的?
- 证明分配规则是单调的: 固定
i
i
i与
b
−
i
b_{-i}
b−i, 写出
X
⃗
(
z
)
,
p
(
z
)
\vec X(z), p(z)
X(z),p(z)对于
X
i
(
z
,
b
−
i
)
X_i(z,b_{-i})
Xi(z,b−i)与
p
i
(
z
,
b
−
1
)
p_i(z,b_{-1})
pi(z,b−1)
- 若
y
≥
z
≥
0
y\ge z\ge 0
y≥z≥0, DSIC需要兼顾两种情况, 即对于竞价者
i
i
i来说, 不管高报或者低报都无法得到最高效用
- [true value = z, false bid = y], z ∗ X ( z ) − p ( z ) ≥ z ∗ X ( y ) − p ( y ) z*X(z)-p(z)\ge z* X(y)-p(y) z∗X(z)−p(z)≥z∗X(y)−p(y)(注意不是 y ∗ X ( y ) − p ( y ) y*X(y)-p(y) y∗X(y)−p(y))
- [true value = y, false bid = z], y ∗ X ( y ) − p ( y ) ≥ y ∗ X ( z ) − p ( z ) y*X(y)-p(y)\ge y*X(z)-p(z) y∗X(y)−p(y)≥y∗X(z)−p(z)
- 移项后 z ( X ( y ) − X ( z ) ) ≤ p ( y ) − p ( z ) ≤ y ( X ( y ) − X ( z ) ) z(X(y)-X(z)) \le p(y)-p(z) \le y( X(y)-X(z)) z(X(y)−X(z))≤p(y)−p(z)≤y(X(y)−X(z)), 得到 X ( y ) ≥ X ( z ) X(y)\ge X(z) X(y)≥X(z)即 X ⃗ ( ⋅ ) \vec X(·) X(⋅)是单调的
- 证明单调的分配规则是有一个付款规则与其对应使得DSIC:
- 书上的证明: 简单起见, 假设 X X X函数的图像是place-wise constant, 即图像上是一段一段都是常数, 但是整体是单调不减, 存在跳跃间断点; 从图像上来看, 给竞价值的点, 付款值应当等于 X X X函数的图像, y轴, 该点处的水平线围成的面积
- 另一种证明: 在 z ( X ( y ) − X ( z ) ) ≤ p ( y ) − p ( z ) ≤ y ( X ( y ) − X ( z ) ) z(X(y)-X(z)) \le p(y)-p(z) \le y(X(y)-X(z)) z(X(y)−X(z))≤p(y)−p(z)≤y(X(y)−X(z))各个位置除以 ( y − z ) (y-z) (y−z), 当 y y y逼近 z z z时就会有 z X ′ ( z ) = p ′ ( z ) zX^\prime(z) = p^\prime(z) zX′(z)=p′(z), 且有卖家不会倒贴竞价者所以 p ( 0 ) = 0 p(0)=0 p(0)=0, 则 p ( ⋅ ) p(·) p(⋅)是可以被唯一确定的, p ( b ) = b X ( b ) − ∫ 0 b X ( z ) d z p(b)=bX(b)-\int_{0}^bX(z)dz p(b)=bX(b)−∫0bX(z)dz
- 最后我们证明
p
p
p是有效的当
X
X
X是单调的(充分性证明, 上面一步是必要性证明)
- z X ( z ) − p ( z ) = z X ( y ) − p ( y ) + S zX(z)-p(z)=zX(y)-p(y)+S zX(z)−p(z)=zX(y)−p(y)+S, 其中S是图像上多出来的那块面积
- 效用是曲线下方的面积, revenue是曲线上方的面积
- 在Sponsored Search Auction中: p i ( b ) = ∑ j = i k b j + 1 ( α j − α j + 1 ) [ α k n = 0 ] p_i(b) = \sum_{j=i}^k b_{j+1}(\alpha_j - \alpha_{j+1})[\alpha_{kn}=0] pi(b)=∑j=ikbj+1(αj−αj+1)[αkn=0] 实际情况中是真正点击了才会付钱, p i ( b ) α i = ∑ j = i k b j + 1 α j − α j + 1 α i \frac{p_i(b)}{\alpha_i} = \sum_{j=i}^kb_{j+1}\frac{\alpha_j-\alpha_{j+1}}{\alpha_{i}} αipi(b)=∑j=ikbj+1αiαj−αj+1
- 若
y
≥
z
≥
0
y\ge z\ge 0
y≥z≥0, DSIC需要兼顾两种情况, 即对于竞价者
i
i
i来说, 不管高报或者低报都无法得到最高效用
- Single-parameter environment
- 案例分析: Sponsored Search Auction
- Vickrey action是dominant-strategy incentive compatible, 即SSIC
课后习题
- 如果在次价格拍卖中, 如果你不说真话, 总是存在一种情况使得你的效用比说真话要低?
- n n n个人 k k k个相同商品的拍卖问题, 应当以什么价格成交?
Lecture 3
- Knapsack Auctions: 背包拍卖(对应背包问题)
- n n n个竞价者, 第 i i i个竞价者有一个私有的估值 v i v_i vi和一个公开的背包大小 w i w_i wi
- 卖家有一个商品总容量 W W W, 比如卖家是广告商, 广告总时长只有三分钟
- 可行集合
X
X
X是一个零一向量
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn), 使得
∑
i
=
1
n
w
i
∗
x
i
≤
W
\sum_{i=1}^n w_i*x_i\le W
∑i=1nwi∗xi≤W
- 当 w i = 1 W = i w_i=1\space W=i wi=1 W=i or k k k, 则退化成单品或多品拍卖
- 显然这里每个人的背包都是要被装满的, 不会存在背包不装满的情况
- 按照社会福利最大化规则作为分配规则来分配所有的拍卖物: X ( b ⃗ ) = a r g m a x x ∈ X ∑ i = 1 n b i ∗ x i X(\vec b) = argmax_{x∈X}\sum_{i=1}^n b_i*x_i X(b)=argmaxx∈X∑i=1nbi∗xi, 即解决背包问题
- 背包问题是NP-hard, 因此不能在短时间内计算得出结果
-
(
X
,
p
)
(X,p)
(X,p)是awesome的吗?
- ① DSIC(√)
- ② 社会福利最大化(√)
- ③ 多项式时间内求解(×)
- 此时我们不可能relax①, 可以考虑relax②和③
- 我们的方法: relax③ 如使用动态规划在伪多项式时间内解决
- 另一种我们希望尽可能少的relax②, 使得服从①和③, 等价于relax②使得③依然单调, 比如使用近似算法(Approximate Algorithm)
- Best-case scenario: match best-known guarantee without any monotinicity or DSIC constraints
- 背包问题的贪心算法(一种近似算法)
- ① 按照 b i / w i b_i/w_i bi/wi的值对竞价者进行降序排序, 即按照单位出价排序
- ② 挑选该排序下的竞价者加入背包, 直到某个竞价者不再能被装入背包, 就停止(不会继续向后寻找, 否则不满足单调性)
- ③ 返回两者之一: {the solution of ②, 出价最高的竞价者}, 选择那个可以得到最大化社会福利的选择
- 之所以要选择出价最高者, 因为可能②的结果是相当差的, 假想有一个出价很高的也买很多, 但是排序前几的几个小买单太低使得大买单无法进入背包就显然不合适
- 这种算法是2-approx的, 即至少可以达到最优解一半的目标函数值(社会福利)
- 难点在于并非所有近似算法给出都可以给出单调的分配规则
- Revelation Principle: 显示原理
- 至今为止我们都主要研究DSIC机制
- ①每个竞价者都有一个占优策略
- ②这个占优策略就是说真话(direct revelation)
- 考虑relax①, 结果需要假设玩家是均衡的(equilibrium)
- 纳什均衡, 贝叶斯纳什均衡
- Pros: 有时可以得到更好的均衡表现
- 考虑relax②, 不需要给定①, ②仍然是不失一般性的(WLOG)
- 显示原理:
- 任意一个拥有guaranteed占优策略的机制 M M M, 存在一个均衡的直接显示的(equilvalent direct-revelation, 可以理解为说真话)DSIC机制 M ′ M^{\prime} M′
- 证明: by simulation argument
- 输入n个报价 { v 1 , v 2 , . . . , v n } \{v_1,v_2,...,v_n\} {v1,v2,...,vn}进入 M ′ M^{\prime} M′, M ′ M^{\prime} M′将它们变成 { s 1 ( v 1 ) , s 2 ( v 2 ) , . . . , s n ( v n ) } \{s_1(v_1),s_2(v_2),...,s_n(v_n)\} {s1(v1),s2(v2),...,sn(vn)}后输入 M M M, 得到 M M M的输出后再由 M ′ M^{\prime} M′输出最终结果
- 举个例子: 次价拍卖中将成交价改为第二名报价的两倍, 则每个人的报价将为估值的一半, 即
M
M
M与
M
′
M^{\prime}
M′中的出价总可以映射
考虑一个拍卖, 所有竞拍方都只知道自己对物品的估值, 拍卖的结果由所有竞拍方的报价决定; 这是一个间接机制, 对物品估值为 a a a的竞拍方的策略是报价 f ( a ) f(a) f(a); 用另一个方式考虑这个拍卖, 竞拍方报出自己对物品的估值, 一个机器或者代理人自动根据报出的估值报价, 这就是直接机制, 竞拍方的策略变成了是否真实报估值;
显示原理就是任何间接机制都可以以上述这种方式等价于一个直接机制; 直接机制比间接机制方便研究, 所以显示原理很重要;
- Revenue Maximization: (卖家)收益最大化(Slide P.33)
- 至今为止, 我们只考虑了社会福利最大化的拍卖
- 为什么?
- DSIC
- sourplus是特殊的, 甚至事后(ex-post)也是最大化的(若所有的报价都是实现知道的)
- Example: 一个竞价者, 一个物品
- DSIC拍卖为拍卖(posted price) r r r
- 收益revenue R ∈ { r , 0 } R ∈ \{r, 0\} R∈{r,0}, 即 v ≥ r v\ge r v≥r时为 r r r, 反之为零
- 为了最大化收益, 如果我们知道 v v v, 那就设成 r = v r=v r=v
- Upshot: 对于收益来说, 不同的拍卖在不同的输入上做得更好
- 所以需要一个模型来解释(reason about)不同输入间的trade-off
- Bayes Analysis: 贝叶斯分析
- 单变量环境
- v i v_i vi是从分布 F i F_i Fi中采样得到的, 取值范围 [ 0 , v m a x ] [0,v_{max}] [0,vmax]
- F i F_i Fi都是独立的, 对于机制设计者是可知的, 但是实际估值 v i v_i vi都是不可知的
- 最大化期望收益
- Example: 一个竞价者, 一个物品
- 期望收益是 r ( 1 − F ( r ) ) r(1-F(r)) r(1−F(r))
- 若 F F F为 U n i f o r m [ 0 , 1 ] Uniform[0,1] Uniform[0,1]则 r ∗ = 0.5 r^{*}=0.5 r∗=0.5
- Example: 两个竞价者, 一个物品
- 已知 v 1 , v 2 ∼ U n i f o r m [ 0 , 1 ] v_1,v_2 \sim Uniform[0,1] v1,v2∼Uniform[0,1]
- Vickrey次价拍卖的收益为 E [ m i n ( v 1 , v 2 ) ] = 1 3 E[min(v_1,v_2)]=\frac{1}{3} E[min(v1,v2)]=31
- 假若我们设定一个起拍价格 0.5 0.5 0.5, 则可以得到 5 12 \frac{5}{12} 125的期望收益
- 目标: characterize最优拍卖
- ①revelation principle⇒可以restrict to direct-revelation
- ( X , p ) (X,p) (X,p)==>总是假设 b = v b=v b=v
- Revenue: E v ⃗ ( ∑ i = 1 n p i ( v ⃗ ) ) E_{\vec v}(\sum_{i=1}^n p_i(\vec v)) Ev(∑i=1npi(v))
- ②拍卖期望收益的重要公式
- 回顾: Myerson’s payment formula
- p i ( v ⃗ ) = ∫ 0 v i z ∗ X i ′ ( z , v ⃗ − i ) d z = v i ∗ X i ′ ( v ⃗ ) − ∫ 0 v i X i ′ ( z , v ⃗ − i ) d z p_i(\vec v)=\int_{0}^{v_i}z*X_i^{\prime}(z,\vec v_{-i})dz=v_i*X_i^{\prime}(\vec v)-\int_{0}^{v_i}X_i^{\prime}(z,\vec v_{-i})dz pi(v)=∫0viz∗Xi′(z,v−i)dz=vi∗Xi′(v)−∫0viXi′(z,v−i)dz即为 X i ( z ) X_i(z) Xi(z)关于 z z z的曲线左边的面积
- 回顾: Myerson’s payment formula
- (详细推导Slide P.38-40)固定
i
i
i和
v
−
i
v_{-i}
v−i, 有
E v i ∼ F i [ p i ( v ⃗ ) ] = ∫ 0 v m a x p i ( v ⃗ ) f i ( v i ) d v i = ∫ 0 v m a x [ ∫ 0 v i z X i ′ ( z , v ⃗ − i ) ] f i ( v i ) d v i = ∫ 0 v m a x [ ∫ z v m a x f i ( v i ) ] ) z X i ′ ( z , v ⃗ − i ) d v i = ∫ 0 v m a x ( 1 − F i ( z ) ) z X i ′ ( z , v ⃗ − i ) d z = ( 1 − F i ( z ) ) z X i ( z , v ⃗ − i ) ∣ 0 v m a x − ∫ 0 v m a x X i ( z , v ⃗ − i ) d ( z ( 1 − F i ( z ) ) ) = − ∫ 0 v m a x X i ( z , v ⃗ − i ) ( 1 − F i ( z ) − z f i ( z ) ) d z = ∫ 0 v m a x [ z − 1 − F i ( z ) f i ( z ) ] f i ( z ) X i ( z , v ⃗ − i ) d z E_{v_i\sim F_i}[p_i(\vec v)] = \int_{0}^{v_{max}}p_i(\vec v)f_i(v_i)dv_i\\ =\int_{0}^{v_{max}}[\int_{0}^{v_i}zX_i^{\prime}(z,\vec v_{-i})]f_i(v_i)dv_i\\ =\int_{0}^{v_{max}}[\int_{z}^{v_{max}}f_i(v_i)])zX_i^{\prime}(z,\vec v_{-i})dv_i\\ =\int_{0}^{v_{max}}(1-F_i(z))zX_i^{\prime}(z,\vec v_{-i})dz\\ =(1-F_i(z))zX_i(z,\vec v_{-i})|_{0}^{v_{max}}-\int_{0}^{v_{max}}X_i(z,\vec v_{-i})d(z(1-F_i(z)))\\ =-\int_{0}^{v_{max}}X_i(z,\vec v_{-i})(1-F_i(z)-zf_i(z))dz\\ =\int_{0}^{v_{max}}[z-\frac{1-F_i(z)}{f_i(z)}]f_i(z)X_i(z,\vec v_{-i})dz\\ Evi∼Fi[pi(v)]=∫0vmaxpi(v)fi(vi)dvi=∫0vmax[∫0vizXi′(z,v−i)]fi(vi)dvi=∫0vmax[∫zvmaxfi(vi)])zXi′(z,v−i)dvi=∫0vmax(1−Fi(z))zXi′(z,v−i)dz=(1−Fi(z))zXi(z,v−i)∣0vmax−∫0vmaxXi(z,v−i)d(z(1−Fi(z)))=−∫0vmaxXi(z,v−i)(1−Fi(z)−zfi(z))dz=∫0vmax[z−fi(z)1−Fi(z)]fi(z)Xi(z,v−i)dz - 定义virtual valuation
ϕ
i
(
z
)
=
z
−
1
−
F
i
(
z
)
f
i
(
z
)
\phi_i(z)=z-\frac{1-F_i(z)}{f_i(z)}
ϕi(z)=z−fi(z)1−Fi(z)
- 在均匀分布中有 F i ( z ) = z F_i(z)=z Fi(z)=z, f i ( z ) = 1 f_i(z)=1 fi(z)=1, ϕ i ( z ) = z − 1 − z 1 = 2 z − 1 \phi_i(z)=z-\frac{1-z}{1}=2z-1 ϕi(z)=z−11−z=2z−1
- 有 E v i [ p i ( v ⃗ ) ] = E v i [ ϕ i ( v i ) ∗ X i ( v ⃗ ) ] E_{v_i}[p_i(\vec v)]=E_{v_i}[\phi_i(v_i)*X_i(\vec v)] Evi[pi(v)]=Evi[ϕi(vi)∗Xi(v)]对于任意的 i , v ⃗ − i i,\vec v_{-i} i,v−i
- apply E v ⃗ − i E_{\vec v_{-i}} Ev−i到 E v ⃗ [ p i ( v ⃗ ) ] = E v ⃗ [ ϕ i ( v i ) ∗ X i ( v ⃗ ) ] E_{\vec v}[p_i(\vec v)]=E_{\vec v}[\phi_i(v_i)*X_i(\vec v)] Ev[pi(v)]=Ev[ϕi(vi)∗Xi(v)]
- 由期望的线性, 有
∑ i = 1 n E v ⃗ [ p i ( v ⃗ ) ] = ∑ i = 1 n E v ⃗ [ ϕ i ( v i ) ∗ X i ( v ⃗ ) ] = E v ⃗ [ ∑ i = 1 n ϕ i ( v i ) ∗ X i ( v ⃗ ) ] \sum_{i=1}^{n}E_{\vec v}[p_i(\vec v)]=\sum_{i=1}^{n}E_{\vec v}[\phi_i(v_i)*X_i(\vec v)]=E_{\vec v}[\sum_{i=1}^{n}\phi_i(v_i)*X_i(\vec v)] i=1∑nEv[pi(v)]=i=1∑nEv[ϕi(vi)∗Xi(v)]=Ev[i=1∑nϕi(vi)∗Xi(v)]- i.e. 期望revenue 等于 期望的virtual surplus(EXPECTED REVENUE = EXPECTED VIRTUAL VALUE)
- 我们的想法就是逐点最大化这个式子, 比如对于每个 v ⃗ \vec v v, 定义 X ( v ⃗ ) X(\vec v) X(v)来最大化 ∑ i n ϕ i ( v i ) X i ( v ⃗ ) \sum_{i}^{n}\phi_i(v_i)X_i(\vec v) ∑inϕi(vi)Xi(v)
- i.e. 拍卖赢家是有最高 ϕ i ( v i ) \phi_i(v_i) ϕi(vi)的竞价者, 或者没有赢家如果所有的 ϕ i ( v i ) \phi_i(v_i) ϕi(vi)都是小于零的
- Catch: is the rule X X X monotone? 即 ϕ \phi ϕ是单调的吗?
- 事实上 ϕ i ( v i ) \phi_i(v_i) ϕi(vi)总是单调的, 上面的均匀分布的结果是 2 z − 1 2z-1 2z−1即为单调, 这并非偶然
- 定义: F F F是常规的(regular), 若 ϕ F ( z ) = z − 1 − F i ( z ) f i ( z ) \phi_F(z)=z-\frac{1-F_i(z)}{f_i(z)} ϕF(z)=z−fi(z)1−Fi(z)是严格递增的
- Note: 假设 F F F是常规的且是独立同分布的, 即所有人的估值分布都是一样的, 则highest valuation( ϕ \phi ϕ) <==> highest virtual value( v v v)
- 对于iid的常规竞价者, Vickrey of reserve price ϕ − 1 ( 0 ) \phi^{-1}(0) ϕ−1(0)
- 即两个人都比 ϕ − 1 ( 0 ) \phi^{-1}(0) ϕ−1(0)低就不卖, 有一个高于则按照较低出价者的出价来成交
- 但是有可能 ϕ \phi ϕ与 v v v并非是同大同小的, 这可能是不公正的
- ①revelation principle⇒可以restrict to direct-revelation
课后习题
- 背包问题中的社会福利最大化规则是单调的(事实上这对于一切单变量环境都是单调的)==>由Myerson’s Lemma给出付款规则 p p p使得 ( x , p ) (x,p) (x,p)是DSIC的
- 给定 i , b ⃗ − i i, \vec b_{-i} i,b−i如果 X i ( b i ) = 1 X_i(b_i)=1 Xi(bi)=1则 p i ( b ) = p_i(b)= pi(b)= critic bid = i =i =i竞价者赢得拍卖的最低出价, 曲线左边的面积是竞价者剩余
- 证明背包问题的贪心算法是2-approx的
- 提示: v ( A ) = ∑ i ∈ A v i , v ( B ) = v m a x = = > v ( A ) + v ( B ) ≥ O P T v(A)=\sum_{i∈A}v_i,\space v(B)=v_{max}==>v(A)+v(B)\ge OPT v(A)=∑i∈Avi, v(B)=vmax==>v(A)+v(B)≥OPT
- slide P.31
- 背包问题的贪心算法是可以推导出一个单调的分配规则, 即竞价者仍然是出价越高或单位出价越高越容易得到更高的效用==>由Myerson’s Lemma可以给出付款规则 p p p使得 ( x , p ) (x,p) (x,p)是DSIC的
- 单调的情况下意味着付款规则对于每个竞价者都存在一个critic bid使得高于该报价获胜, 低于该报价是失败的
Lecture 4
- 上集回顾
- [ ∑ i = 1 n p i ( v ⃗ ) ] = E v ⃗ [ ∑ i = 1 n ϕ i ( v ⃗ ) X i ( v ⃗ ) ] [\sum_{i=1}^{n}p_i(\vec v)] = E_{\vec v}[\sum_{i=1}^{n}\phi_i(\vec v)X_i(\vec v)] [∑i=1npi(v)]=Ev[∑i=1nϕi(v)Xi(v)]
- EXPECTED REVENUE = EXPECTED VIRTUAL WELFARE
- ϕ i ( v i ) = v i − 1 − F i ( v i ) f i ( v i ) \phi_i(v_i) = v_i - \frac{1-F_i(v_i)}{f_i(v_i)} ϕi(vi)=vi−fi(vi)1−Fi(vi) 严格单调增
- 要求分布 F i F_i Fi是regular的
- 如果virtual welfare最大化分配规则是单调的, 则它是最优的
- 应用: 单品拍卖, iid分布的regular竞拍者, 最优拍卖为Vickrey+reserve_price( ϕ − 1 ( 0 ) \phi^{-1}(0) ϕ−1(0))
- 举例: 若两个竞拍者A的分布为Uniform[0,2], B的分布为Uniform[0,3], A真实出价为2, B真实出价为2.4, 则算下来A的virtual revenue为2, B为1.8. 因此A赢得了拍卖, 付款为1.9, 因为A只要报出1.9就仍然可以赢B, 所以对于A来说Allocation Function在1.9处发生跳跃, 左侧面积刚好为1.9, 即为critic bid
- 因此myerson理论在实际中存在缺陷, 出价低的人反而赢得了竞拍, 且付款额是一个很奇怪的数字
- 因此我们希望找到一个更简单, 更实际, 更鲁棒的拍卖
- 引出计算机领域的一个拍卖, 即牺牲一些社会福利, 如只要80%的福利, 但是我可以取得接近最优解的结果
- Prophet Inequality 先验不等式
- 一个有 n n n轮的博弈
- 在第 i i i阶段, 会提供一个价值为 π i \pi_i πi的奖励 π i ∼ G i \pi_i \sim G_i πi∼Gi, 其中分布 G i G_i Gi是已知的(且各个阶段的prize相互独立)
- 玩家在看到 π i \pi_i πi后, 可以接受(则博弈停止)或者继续, 最终要最大化自己的收益
- 定理[Samel-Cahn’ 84]: 存在一种策略, 使得期望收益不小于
1
2
E
π
⃗
[
max
i
π
i
]
\frac{1}{2}E_{\vec \pi}[\max_i\pi_i]
21Eπ[maxiπi], 即至少为可能最优解的一半, 只要使用一个阈值策略, 即接受
π
i
\pi_i
πi一旦
π
i
≥
t
\pi_i\ge t
πi≥t,
t
t
t为给定的阈值
- 证明:
- 定义符号 z + = max { 0 , z } z^{+}=\max\{0,z\} z+=max{0,z}, 考虑一个阈值 t t t, 使得 q ( t ) = P r ( π i < t , ∀ i ) q(t)=Pr(\pi_i\lt t, \forall i) q(t)=Pr(πi<t,∀i)
- ① E [ E[ E[以 t t t为阈值的收益] = t ( 1 − q ( t ) ) + ∑ i = 1 n E π i [ π i − t ∣ π i ≥ t , π j < t , ∀ j < i ] ⋅ P r ( π i ≥ t ) ⋅ P r ( π j < t , ∀ j < i ) ≥ t ( 1 − q ( t ) ) + ∑ i = 1 n E π i [ π i − t ∣ π i ≥ t ] ⋅ P r ( π i ≥ t ) ⋅ P r ( π j < t , ∀ j ≠ i ) = t ( 1 − q ( t ) ) + ∑ i = 1 n E π i [ ( π i − t ) + ] ⋅ P r ( π j < t , ∀ j ≠ i ) ≥ t ( 1 − q ( t ) ) + ∑ i = 1 n E π i [ ( π i − t ) + ] ⋅ q ( t ) =t(1-q(t))+\sum_{i=1}^{n}E_{\pi_i}[\pi_i-t|\pi_i\ge t, \pi_j\lt t, \forall j<i]·Pr(\pi_i\ge t)·Pr(\pi_j\lt t, \forall j<i)\\ \ge t(1-q(t))+\sum_{i=1}^{n}E_{\pi_i}[\pi_i-t|\pi_i\ge t]·Pr(\pi_i\ge t)·Pr(\pi_j\lt t, \forall j\ne i)\\ =t(1-q(t))+\sum_{i=1}^{n}E_{\pi_i}[(\pi_i-t)^{+}]·Pr(\pi_j\lt t, \forall j\ne i)\\ \ge t(1-q(t))+\sum_{i=1}^{n}E_{\pi_i}[(\pi_i-t)^{+}]·q(t) =t(1−q(t))+i=1∑nEπi[πi−t∣πi≥t,πj<t,∀j<i]⋅Pr(πi≥t)⋅Pr(πj<t,∀j<i)≥t(1−q(t))+i=1∑nEπi[πi−t∣πi≥t]⋅Pr(πi≥t)⋅Pr(πj<t,∀j=i)=t(1−q(t))+i=1∑nEπi[(πi−t)+]⋅Pr(πj<t,∀j=i)≥t(1−q(t))+i=1∑nEπi[(πi−t)+]⋅q(t)
- ② E [ max i π i ] = E [ t + max i ( π i − t ) ] = t + E [ max i ( π i − t ) ] ≤ t + E [ max i ( π i − t ) + ] ≤ t + ∑ i = 1 n E [ ( π i − t ) + ] E[\max_i \pi_i]=E[t+\max_i(\pi_i-t)]=t+E[\max_i(\pi_i-t)]\le t+E[\max_i(\pi_i-t)^{+}]\le t+\sum_{i=1}^{n}E[(\pi_i-t)^{+}] E[maxiπi]=E[t+maxi(πi−t)]=t+E[maxi(πi−t)]≤t+E[maxi(πi−t)+]≤t+∑i=1nE[(πi−t)+]
- 对比①②两种不同方式的放缩结果, 设置 t t t使得 q ( t ) = 1 2 q(t)=\frac{1}{2} q(t)=21就可以证明定理成立
- 证明:
- 应用:
- 单品拍卖
- regular的分布 F 1 , F 2 , . . . , F n F_1,F_2,...,F_n F1,F2,...,Fn
- 考虑 π i = ϕ i ( v i ) + \pi_i=\phi_i(v_i)^{+} πi=ϕi(vi)+作为第 i i i轮的奖励
- 由Myerson的理论知最优期望收益 = E v ⃗ [ ∑ i ϕ i ( v i ) X i ∗ ( v ⃗ ) ] = E v ⃗ [ max i ϕ i ( v i ) + ] =E_{\vec v}[\sum_{i}\phi_i(v_i)X_i^{*}(\vec v)]=E_{\vec v}[\max_i \phi_i(v_i)^{+}] =Ev[∑iϕi(vi)Xi∗(v)]=Ev[maxiϕi(vi)+]
- Simple action: 目前并没有一个确切的定义说什么样的拍卖机制是相对simaple的, 但我们可以相信这种拍卖机制比Myerson的virtual welfare拍卖要相对simple
- 选择 t t t使得 P r ( max ϕ i ( v i ) + ≥ t ) = 1 2 Pr(\max \phi_i(v_i)^{+}\ge t)=\frac{1}{2} Pr(maxϕi(vi)+≥t)=21
- 将奖励商品授予一个 ϕ i ( v i ) > t \phi_i(v_i)\gt t ϕi(vi)>t的竞拍者(if any, 有virtual value都大于 t t t的就随便给了)
- Observation about the P.I.
- 假设 π i ≥ t \pi_i\ge t πi≥t对于多个 i i i, 确保满足即使策略会选择最差的那个竞拍者
- by P.I. 这个Simple action期望的virtual surplus不小于实际最优解的一半
- Implement: 实现这个拍卖
- ① 设置reserve price r i = ϕ i ( t ) r_i=\phi_i(t) ri=ϕi(t), 来筛去那些低于阈值的竞拍者
- ② 将商品给到剩余竞拍者中出价最高的那个人即可(if any)
- ③ 最后按照次价付款即可
- 这个机制唯一不好的地方就是存在价格歧视
- 进一步地, 如果 n n n个分布 F 1 , F 2 , . . . , F n F_1,F_2,...,F_n F1,F2,...,Fn对于卖方来说未知, 这称为prior-independent auction, 本节不讨论
- 定理[Bulow-Kemperer](Slide P.48): 单品拍卖, n个 iid regular的分布 F F F, 有EXPECTED REVENUE OF VICKREY(有 n + 1 n+1 n+1个人的拍卖) >= EXPECTED OPT UNDER F(有 n n n个人的拍卖)
- 即有
n
+
1
n+1
n+1个人的二价拍卖最有期望收益不小于
n
n
n个人的最优解, 且VA的收益为
ϕ
i
(
0
)
\phi_i(0)
ϕi(0)
- Slide的表述: That is, O P T F OPT_F OPTF is the Vickrey auction with the monopoly reserve price ϕ i ( 0 ) \phi_i(0) ϕi(0), where ϕ \phi ϕ is the virtual valuation function of F F F
- 推论: 额外的竞争比最优拍卖格式更加重要
- 证明:
- 定义拍卖
A
A
A(with
n
+
1
n+1
n+1 个竞拍者)
- ① 现在模拟OPT在 n n n个bidders中: 1,2,…,n
- ② 如果在①中没有卖出去, 将商品免费送给第 n + 1 n+1 n+1个bidder,
- Note: A A A的期望收益与OPT相同(有 n n n个bidders)
- Note: A A A总是会分配商品
- Note: A A A是一个DSIC的拍卖机制
- 作为结束, 声称Vickrey最大化了期望收益在所有的拍卖中, 并且能够总是卖出商品
-
E
v
⃗
[
∑
p
i
(
v
⃗
)
]
=
E
v
⃗
[
∑
i
ϕ
i
(
v
i
)
X
i
(
v
⃗
)
]
≤
E
v
⃗
[
max
i
ϕ
i
(
v
i
)
]
E_{\vec v}[\sum p_i(\vec v)]=E_{\vec v}[\sum_i \phi_i(v_i)X_i(\vec v)]\le E_{\vec v}[\max_i \phi_i(v_i)]
Ev[∑pi(v)]=Ev[∑iϕi(vi)Xi(v)]≤Ev[maxiϕi(vi)] if always saling,
- 第一个等号是对 A A A而言: EXPECTED REVENUE=EXPECTED VIRTUAL VALUE
- 不等式右端其实就是Vickrey
- ∑ i X i ( v ⃗ ) = 1 , ∀ v ⃗ \sum_i X_i(\vec v)=1, \forall \vec v ∑iXi(v)=1,∀v
- 原因: 为了最大化收益使得总是卖出商品, 则分配给竞拍者with最高的 ϕ i ( v i ) \phi_i(v_i) ϕi(vi)
- Vickrey将商品给到竞拍者with最高的 v i v_i vi
- 定义拍卖
A
A
A(with
n
+
1
n+1
n+1 个竞拍者)
- 更一般的多变量机制设计
- n n n个竞拍者
- 有限集合 Ω \Omega Ω of outcomes
- i i i有一个私有的估值 v i ( ω ) v_i(\omega) vi(ω) 对于每个 ω ∈ Ω \omega∈\Omega ω∈Ω
- 定理[Vickrey Clarke Graves]: 在每个环境中, 都有一个DSIC surplus-maximizing 机制
- 这里并不能保证一定有一个多项式时间内能计算出的机制, 即relax了第三点
- 证明:
- ① 假设每个人都还是诚实竞价(truthful bids):
{
b
⃗
i
}
∣
1
n
\{\vec b_i\}|_{1}^{n}
{bi}∣1n, 其中
b
⃗
i
\vec b_i
bi根据
Ω
\Omega
Ω来索引, 注意这里的每个人的报价已经是要报出一串数, 而非一个数
- 定义分配规则: X ( b ⃗ ) = arg max ω ∈ Ω ∑ i = 1 n b i ( ω ) X(\vec b)=\argmax_{\omega∈\Omega}\sum_{i=1}^{n}b_i(\omega) X(b)=ω∈Ωargmax∑i=1nbi(ω)
- ② 定义付款规则来达到DSIC: 前提要求分配规则是单调的
- 问题: 单调分配规则的定义并不明确
- 想法: 经济学上的外部性, 及向竞拍者
i
i
i要价externality
- P i ( b ⃗ ) = max ω ∈ Ω ∑ j ≠ i b i ( ω ) − ∑ j ≠ i b j ( ω ∗ ) P_i(\vec b)=\max_{\omega∈\Omega}\sum_{j\ne i}b_i(\omega)-\sum_{j\ne i}b_j(\omega^{*}) Pi(b)=maxω∈Ω∑j=ibi(ω)−∑j=ibj(ω∗)
- max ω ∈ Ω ∑ j ≠ i b i ( ω ) \max_{\omega∈\Omega}\sum_{j\ne i}b_i(\omega) maxω∈Ω∑j=ibi(ω)是如果 i i i不在市场里面其他人的surplus是多少
- ∑ j ≠ i b j ( ω ∗ ) \sum_{j\ne i}b_j(\omega^{*}) ∑j=ibj(ω∗)是如果 i i i在市场里面其他人的surplus是多少, 其中 ω ∗ = X ( b ⃗ ) \omega^{*}=X(\vec b) ω∗=X(b)
- 即由于 i i i的存在, 其他人的surplus变差了多少, 则 i i i需要付出多少钱
- 证明这种外部性的想法是正确的: 即证明这种VCG的机制是DSIC的(surplus maximizing)
- 固定 i , b ⃗ − i i, \vec b_{-i} i,b−i, 其中 ω ∗ = X ( b ⃗ ) \omega^{*}=X(\vec b) ω∗=X(b), 第 i i i个人的效用 = v i ( ω ) − p i ( b ⃗ ) = [ v i ( ω ) + ∑ j ≠ i b j ( ω ) ] − max ω ∈ Ω ∑ j ≠ i b j ( ω ) =v_i(\omega)-p_i(\vec b)=[v_i(\omega)+\sum_{j\ne i}b_j(\omega)]-\max_{\omega∈\Omega}\sum_{j\ne i}b_j(\omega) =vi(ω)−pi(b)=[vi(ω)+∑j=ibj(ω)]−maxω∈Ω∑j=ibj(ω)
- 注意 max ω ∈ Ω ∑ j ≠ i b j ( ω ) \max_{\omega∈\Omega}\sum_{j\ne i}b_j(\omega) maxω∈Ω∑j=ibj(ω)这部分与 b ⃗ i \vec b_i bi是独立的
- Best case for i i i, 机制挑选 ω ∗ ∈ arg max ω ∈ Ω [ v i ( ω ) + ∑ j ≠ i b j ( ω ) ] \omega^{*}∈\argmax_{\omega∈\Omega}[v_i(\omega)+\sum_{j\ne i}b_j(\omega)] ω∗∈ω∈Ωargmax[vi(ω)+∑j=ibj(ω)]
- VCG做了什么? VCG选择 ω ∗ ∈ arg max ω ∈ Ω ∑ j = 1 n b j ( ω ) \omega^{*}∈\argmax_{\omega∈\Omega}\sum_{j=1}^{n}b_j(\omega) ω∗∈ω∈Ωargmax∑j=1nbj(ω)
- 从而推导出bidding b ⃗ i = v ⃗ i \vec b_i=\vec v_i bi=vi导致这个发生, 如果真实报价的话, VCG的选择就是你真实的选择
- ① 假设每个人都还是诚实竞价(truthful bids):
{
b
⃗
i
}
∣
1
n
\{\vec b_i\}|_{1}^{n}
{bi}∣1n, 其中
b
⃗
i
\vec b_i
bi根据
Ω
\Omega
Ω来索引, 注意这里的每个人的报价已经是要报出一串数, 而非一个数
- 另一种推论解释:
- p i ( b ⃗ ) = b i ( ω ∗ ) − ( ∑ j = 1 n b j ( ω ∗ ) − max ω ∈ Ω ∑ j ≠ i b j ( ω ) ) p_i(\vec b)=b_i(\omega^{*})-(\sum_{j=1}^{n}b_j(\omega^{*})-\max_{\omega∈\Omega}\sum_{j\ne i}b_j(\omega)) pi(b)=bi(ω∗)−(∑j=1nbj(ω∗)−maxω∈Ω∑j=ibj(ω))
- ∑ j = 1 n b j ( ω ∗ ) \sum_{j=1}^{n}b_j(\omega^{*}) ∑j=1nbj(ω∗)是有你的社会surplus
- max ω ∈ Ω ∑ j ≠ i b j ( ω ) ) \max_{\omega∈\Omega}\sum_{j\ne i}b_j(\omega)) maxω∈Ω∑j=ibj(ω))是没有你的社会surplus
- 类似一价拍卖, 但是最后会给你一些补偿
Lecture 5
- 回顾VCG:
- 总是可以找到一个DSIC的社会福利最大化机制
- 每个人的付款应该是有他和没有他两种情况下, 整个社会surplus的差值
- VCG举例:
- Ex1: 单品拍卖
- 3个bidders, Ω = { \Omega=\{ Ω={allocate to A , B , C } A, B, C\} A,B,C}
- 分配情况收益是分配给 i i i的效用 v i v_i vi, 其中 i ∈ { A , B , C } i∈\{A,B,C\} i∈{A,B,C}, 其余情况都是零, 即outcome矩阵是一个对角阵, 对角线上是各个人的valuation
- Ex2: 双边贸易 Bilateral Trade
- 一个卖家, 成本 v S v_S vS
- 一个买家, 估值 v B v_B vB
- 但是一个中介想要促成交易(但是中介不知道 v S v_S vS和 v B v_B vB, 当然 v S < v B v_S<v_B vS<vB, 否则不应当去促成交易), 由VCG payment来看应当多少钱使得他们都会真实报价?
- 解决方案: Ω = { \Omega=\{ Ω={成交, 不成交 } \} }, outcome矩阵是, 不成交买卖双方都是零, 成交的话卖家为 − v S -v_S −vS, 买家为 v B v_B vB, 但是用VCG要求矩阵的数值非负, 此时我们将outcome矩阵平移, 即将卖家这行都加上 v S v_S vS(注意我们会选择outcome之和最大的那一种 ω \omega ω, 因此将某个参与者的outcome全都加一个数不影响最终的选择), outcome矩阵又变成了和单品拍卖一样的对角矩阵, [ ( 0 , − v S ) , ( 0 , v B ) ] → [ ( v S , 0 ) , ( 0 , v B ) ] [(0,-v_S),(0,v_B)] \rightarrow [(v_S,0),(0,v_B)] [(0,−vS),(0,vB)]→[(vS,0),(0,vB)]
- VCG付款规则: P S ( v ) = h S ( v B ) − u B ( ω ∗ ) P_S(v)=h_S(v_B)-u_B(\omega^{*}) PS(v)=hS(vB)−uB(ω∗), h S h_S hS是卖家不在时别人的最大值
- 直观上成交的话应该向卖家收一笔钱, 然后向买家付一笔钱,
- 注意如果没有成交, VCG应该确保是不付钱
P
S
(
v
)
=
h
S
(
v
B
)
−
u
B
(
P_S(v)=h_S(v_B)-u_B(
PS(v)=hS(vB)−uB(不成交
)
=
0
)=0
)=0, 因为
u
B
(
u_B(
uB(不成交
)
=
0
)=0
)=0,
则
则
则h_S$应该恒等于0
- 在上节课里我们看到 h S h_S hS就是 max ω ∈ Ω ∑ j ≠ i b i ( ω ) \max_{\omega∈\Omega}\sum_{j\ne i}b_i(\omega) maxω∈Ω∑j=ibi(ω), 是可以随便取的, 但是后面一项不行与 b i b_i bi独立是不行的
- 对于买家来说很容易证明是DSIC的, 因为诚实报价最优解, 放低报价不会增加收益
- VCG付款规则: P B ( v ) = h B ( v S ) − u S ( ω ∗ ) P_B(v)=h_B(v_S)-u_S(\omega^{*}) PB(v)=hB(vS)−uS(ω∗), h B h_B hB是买家不在时别人的最大值
- 注意如果没有成交, VCG应该确保是不付钱 P B ( v ) = h B ( v S ) − u S ( P_B(v)=h_B(v_S)-u_S( PB(v)=hB(vS)−uS(不成交 ) = 0 )=0 )=0, 因为 u S ( u_S( uS(不成交 ) = v S )=v_S )=vS, 则 h B h_B hB应该恒等于 v S v_S vS
- 郭远方的一个想法: 中介要使得双方的付款都与他们自己的成本或估值是无关的, 因为要让他们诚实报价
- Ex3: 造桥(公共品)
- 造桥成本为 C C C
- 桥造出来对城市中每个人都会有一个效用, 假设有 n n n个玩家, 每个人的效用是 v i v_i vi
- 直观上应该是当 ∑ i = 1 n v i ≥ C \sum_{i=1}^{n}v_i\ge C ∑i=1nvi≥C时会造桥, 那么政府应当如何向这些人收钱?
- ① 一种特殊情况:
C
=
100
C=100
C=100,
n
=
200
n=200
n=200,
v
i
=
1
v_i=1
vi=1
- 因为无论有没有某个 i i i, 决策是不会变的(199>100), 因此根据VCG来说是不付钱的
- ② 一种特殊情况: 将①中的某个 i i i的效用是50, 其余99个人都是1, 那么向这个效用50的应当给他1块钱
- 用VCG研究这个场景时应当去把政府也作为一个玩家加进来, 造桥的outcome是 − C -C −C, 不造是0, 因此在②中应当是向这个效用50的人付款1元(有他就造, 其余人总效用为-100+99, 没有他就不造, 其余人效用为0, 发现效用变好了, 所以要付给他1块钱)
- Ex4: 在一个网络图中买一条路径
- 有向图中的每条边是一个player, 它会有一个cost, 起始点为 s s s, t t t
- VCG的思想就是有这条边和没有这条边有多大路径增长, 以此来对每条边付钱
- 以下面这个图为例:
V
=
{
A
,
B
,
C
,
D
,
E
,
F
}
V=\{A,B,C,D,E,F\}
V={A,B,C,D,E,F},
E
=
{
(
A
,
B
,
3
)
,
(
B
,
D
,
2
)
,
(
D
,
F
,
2
)
,
(
A
,
C
,
2
)
,
(
C
,
E
,
3
)
,
(
E
,
F
,
1
)
,
(
B
,
E
,
1
)
,
(
C
,
F
,
5
)
}
E=\{(A,B,3),(B,D,2),(D,F,2),(A,C,2),(C,E,3),(E,F,1),(B,E,1),(C,F,5)\}
E={(A,B,3),(B,D,2),(D,F,2),(A,C,2),(C,E,3),(E,F,1),(B,E,1),(C,F,5)}
- 最优解 A B E F ABEF ABEF, 成本为5
- 当缺少 A B AB AB时变成 A C E F ACEF ACEF, 成本为6, 因此付给 A B AB AB是 6 − 2 = 4 6-2=4 6−2=4, 因为 A B E F ABEF ABEF中要把 A B AB AB扔了
- 同理给 B E BE BE的付款为2, 给 E F EF EF的付款为3
- Ex1: 单品拍卖
- 介绍一些VCG失败的场景
- Ex1
- n n n个bidders
- M = { 1 , 2 , . . . , m } M=\{1,2,...,m\} M={1,2,...,m}是物品集合
- Ω = { ( S 1 , S 2 , . . . , S n ) } \Omega =\{(S_1,S_2,...,S_n)\} Ω={(S1,S2,...,Sn)}为outcome, 注意不一定所有的物品都会被卖出去, S i S_i Si包含于 M M M代表第 i i i个人的bundle
- 第
i
i
i个bidder有一个私有的估值
v
i
(
S
)
v_i(S)
vi(S)对于每个bundle
S
S
S包含于
M
M
M
- v i ( ∅ ) = 0 v_i(\emptyset)=0 vi(∅)=0
- v i ( S ) ≥ v i ( T ) v_i(S)\ge v_i(T) vi(S)≥vi(T)若 T T T包含于 S S S
- surplus目标函数: ∑ i = 1 n v i ( S i ) \sum_{i=1}^{n}v_i(S_i) ∑i=1nvi(Si)
- VCG无法计算这个问题:
- ① 该问题求解是NP-hard, 难以求解目标函数最优解
- ② 难以收集bid, 因为当有
m
m
m个物品时每个bidder需要提供
2
m
2^m
2m个报价
- 因此引出ascending auctions: learn info on “need-to-know” basis, indirect auction
- ③ 即时①②都不是问题, VCG可能有一个坏的收益属性
- 举例说明: 比如只有两个物品 { A , B } \{A,B\} {A,B}, 两个bidder
- bidder 1: v 1 ( A B ) = 1 v_1(AB)=1 v1(AB)=1, 其余为0
- bidder 2: v 2 ( A B ) = v 2 ( A ) = 1 v_2(AB)=v_2(A)=1 v2(AB)=v2(A)=1, 其余为0
- 显然VCG revenue为1, 不管踢掉哪个bidder, outcome差都是1
- 假设现在加入一个bidder 3: v 3 ( A B ) = v 3 ( B ) = 1 v_3(AB)=v_3(B)=1 v3(AB)=v3(B)=1, 其余为0, 此时会把商品分给2和3, 但是此时revenue掉到了0, 多出一个人反而使得revenue减少了
- 结论: VCG很容易使得bidder间发生勾结
- ④ Relaxing DSIC 使得能导致一个新的gaming possibilities
- Ex[Cromton/Schwartz '02] 频谱拍卖: 如5G的频段拍卖
- #378 Rochester, USWest and Mcleod
- 一种简单的解决方案: 本来我有几百个东西一起卖, 现在我分下来卖, 转化成单品拍卖
- 注意拍卖顺序会对结果产生影响的
- ① 单品拍卖总是生效吗?
- A. 若商品是(mostly)替代品, 则大概有 v ( A B ) ≤ v ( A ) + v ( B ) v(AB)\le v(A)+v(B) v(AB)≤v(A)+v(B), 比如同一个地区的5G执照, 这种情况下分开卖一般不会影响revenue
- B. 若商品是互补品, 则会有 v ( A B ) ≥ v ( A ) + v ( B ) v(AB)\ge v(A)+v(B) v(AB)≥v(A)+v(B), 比如不同地区的5G执照, 这种情况下就很有意思了
- 错误1: 序列式的拍卖 sequentially auction
- 一种简单的案例:
- 相同的商品, 每个bidder只想要其中一个
- 问题: 不是DSIC的, 需要猜测拍卖价格, 比如估值最高者未必会在第一轮进场, 因为如果估值第二高者第一轮进场, 最高者第二轮进场就可以至多以第三高价成交
- Ex: Swiss 2000 March ① 28MHZ block (121 mil) ② 28MHZ block (134 mil) ③ 56MHZ block (55 mil) <-- double bid
- 一种简单的案例:
- 错误2: 密封式拍卖 sealed auction
- Ex: NewZealand 1990 roughly identical goods, 一个bidder可能会要多个商品
- 使用同时的二价密封拍卖, 即bidder要同时提交所有商品的竞价
- 对于bidders来说很难来玩这个博弈, 新西兰政府预计能收到250mil, 但是结果只收到了36m
- 有一场, 第一名出了十万, 第二名出了6块, 结果第一名只需要付出6块就可以拿到商品
- 一种解决方案是不要次价拍卖, 就用一价拍卖来搞, 但是仍然会有一些问题
- Ex: NewZealand 1990 roughly identical goods, 一个bidder可能会要多个商品
- Ex[Cromton/Schwartz '02] 频谱拍卖: 如5G的频段拍卖
- 解决上面频谱拍卖的目前一个解决方案: Simultaneous ascending auction (SAA)
- 每一轮, 每个bidder可以对任何一个商品集合的子集进行报价
- 最高报价的bidder和他的bid将被展示
- 当某一轮没有人再出价, 结束拍卖
- 行动规则: roughly, number of items you are bidding on only drops with time
- Big win: price discovery
- 举个例子: 2个相同商品, 3个bidders, 其实本质上大家都会在较低的那个商品上竞价, 两个商品会稳步上升, 直到超过第三名的估值
- allows mid-course corrections: 允许中间修正
- fixes miscoordination with smaller goods: 修正竞价低的商品的不协调性
- minor merit: valuation discovery
- 总体来说, SAA运行的还不错, 现在美国政府基本都按照SAA来竞拍
- 接近最优的剩余(near-optimal surplus): 事实上其实很难评价是否接近最优, 甚至最优是什么都难以有定论, 不过是可以通过一些现象来评价:
- no resale: 没有发生转卖
- similar price: 竞拍价格类似
- bidders get closed areas: bidder都拿到了离他们较近的区域
- 接近最优的剩余(near-optimal surplus): 事实上其实很难评价是否接近最优, 甚至最优是什么都难以有定论, 不过是可以通过一些现象来评价:
- 问题:
- ① demand reduction
- 2个相同商品, 2个竞拍者(好像只卖出一个)
- v 1 ( 1 ) = 10 v_1(1)=10 v1(1)=10, v 1 ( 2 ) = 20 v_1(2)=20 v1(2)=20, v 2 ( 1 ) = v 2 ( 2 ) = 8 v_2(1)=v_2(2)=8 v2(1)=v2(2)=8, VCG显然会把两个商品都给到bidder 1, MAX Surplus为20, VCG revenue为8
- SAA的情况下bidder 2不会drop out除非both prices都超过了8
- 于是bidder 1会付16块钱for both
- better to target 1 good → \rightarrow → both sold at price 0
- 于是两个人就不抢了, 分别在两个商品上bid 0
- ② 暴露出的问题: Exposure problems (when goods are conplements)
- Example: 两个商品
- v 1 ( A B ) = 100 v_1(AB)=100 v1(AB)=100, 其余为零
- v 2 ( A B ) = v 2 ( A ) = v ( B ) = 75 v_2(AB)=v_2(A)=v_(B)=75 v2(AB)=v2(A)=v(B)=75
- Max Surplus = 100 =100 =100, VCG revenue = 75 =75 =75
- SAA: bidder 1 担心输, 所以会可能超过估值报价
- Example: 两个商品
- ① demand reduction
Lecture 6
- Problem Set 1 解析
- 第一题:
- (a): 本质只要证明每个人出价是
(
1
−
1
n
)
v
i
(1-\frac{1}{n})v_i
(1−n1)vi是一个纳什均衡;
- bidder i i i value v i v_i vi 其他bidders的bidding策略是 ( 1 − 1 n ) v j (1-\frac{1}{n})v_j (1−n1)vj(对于bidder j j j)
- 有 E v ⃗ − i [ E_{\vec v_{-i}}[ Ev−i[utililty that i i i bidding z ] = ( v i − z ) Pr [ i z]=(v_i-z)\Pr[i z]=(vi−z)Pr[i wins ] = ( v i − z ) Pr [ z > ( 1 − 1 n ) v j ] = ( v i − z ) ∏ j ≠ i Pr [ v j < z 1 − 1 n ] = ( v i − z ) ( z 1 − 1 n − 1 ) n − 1 ]=(v_i-z)\Pr[z>(1-\frac{1}{n})v_j]=(v_i-z)\prod _{j\ne i}\Pr[v_j<\frac{z}{1-\frac{1}{n}}]=(v_i-z)(\frac{z}{1-\frac{1}{n-1}})^{n-1} ]=(vi−z)Pr[z>(1−n1)vj]=(vi−z)∏j=iPr[vj<1−n1z]=(vi−z)(1−n−11z)n−1
- 显然当 z = ( 1 − 1 n ) = v i z=(1-\frac{1}{n})=v_i z=(1−n1)=vi是取到最大值, 求导或用不等式皆可;
- (b): 如果所有bidders的values是iid服从分布
F
F
F, 则
b
i
(
v
i
)
=
E
[
max
j
≠
i
∣
v
i
≥
v
j
∀
j
]
b_i(v_i)=E[\max_{j\ne i}|v_i\ge v_j \space \forall j]
bi(vi)=E[maxj=i∣vi≥vj ∀j]
- 假设bidder i i i 的bid是 b i ( z ) b_i(z) bi(z), 有 E [ E[ E[utility of bidding b i ( z ) ] = ( v i − b i ( z ) ) Pr [ b i ( z ) > b j ( v j ) ∀ j ≠ i ] = ( v i − b i ( z ) ) F n − 1 ( z ) b_i(z)]=(v_i-b_i(z))\Pr[b_i(z)>b_j(v_j)\space \forall j\ne i]=(v_i-b_i(z))F^{n-1}(z) bi(z)]=(vi−bi(z))Pr[bi(z)>bj(vj) ∀j=i]=(vi−bi(z))Fn−1(z)
- 注意到 b i ( z ) = E [ max j ≠ i v j ∣ z ≥ v j ∀ j ] = ∫ 0 z [ 1 − ( F ( t ) F ( z ) ) n − 1 ] d t = 1 F n − 1 ( z ) ∫ 0 z [ F n − 1 ( z ) − F n − 1 ( t ) ] d t = F n − 1 ( z ) v i − ∫ 0 z [ F n − 1 ( z ) − F n − 1 ( t ) ] d t = F n − 1 ( z ) v i − z F n − 1 ( z ) + ∫ 0 z F n − 1 ( t ) d t b_i(z)\\=E[\max_{j\ne i}v_j|z\ge v_j\space \forall j]\\=\int_{0}^{z}[1-(\frac{F(t)}{F(z)})^{n-1}]dt\\=\frac{1}{F^{n-1}(z)}\int_0^z[F^{n-1}(z)-F^{n-1}(t)]dt\\=F^{n-1}(z)v_i-\int_0^z[F^{n-1}(z)-F^{n-1}(t)]dt\\=F^{n-1}(z)v_i-zF^{n-1}(z)+\int_0^z F^{n-1}(t)dt bi(z)=E[j=imaxvj∣z≥vj ∀j]=∫0z[1−(F(z)F(t))n−1]dt=Fn−1(z)1∫0z[Fn−1(z)−Fn−1(t)]dt=Fn−1(z)vi−∫0z[Fn−1(z)−Fn−1(t)]dt=Fn−1(z)vi−zFn−1(z)+∫0zFn−1(t)dt
- 对上式求导化简有 ( n − 1 ) F n − 1 ( z ) f ( z ) ( v i − z ) (n-1)F^{n-1}(z)f(z)(v_i-z) (n−1)Fn−1(z)f(z)(vi−z)在 z = v i z=v_i z=vi时取得极值;
- ©: 显然都是相同的, 其实Myerson理论中, BNE条件下, virtual valuation与welfare两者期望都是相同的;
- (a): 本质只要证明每个人出价是
(
1
−
1
n
)
v
i
(1-\frac{1}{n})v_i
(1−n1)vi是一个纳什均衡;
- 第四题:
- (a): 反证法即可, 利用课上证明的不等式;
- (b): 构造一个两轮的game, 第一轮是常数1, 第二轮是二项分布, 1 − 1 p 1-\frac{1}{p} 1−p1的概率得到 0 0 0, 1 p \frac{1}{p} p1的概率得到 p p p, 则可以证明当 p → ∞ p\rightarrow \infty p→∞时, approx是趋于 f r a c 12 frac{1}{2} frac12的, 所以 f r a c 12 frac{1}{2} frac12是无法被提升的;
- ©: 提示
1
−
G
n
(
x
)
=
G
n
−
1
(
x
)
1-G^n(x)=G^{n-1}(x)
1−Gn(x)=Gn−1(x), 显然
G
n
−
1
(
x
)
G^{n-1}(x)
Gn−1(x)一定是比
1
2
\frac{1}{2}
21要大一些
- 事实上这是一个著名的停时问题, 最新研究的文献其上限可以证明到0.74以上; 不过老师给的参考答案是 1 − 1 e 1-\frac{1}{e} 1−e1的版本:
- E [ E[ E[payoff of t t t-threshold ] ≥ ( 1 − q ( t ) ) t + ∑ i = 1 n E [ ( π i − t ) + ] Pr [ π j < t , ∀ j < i ] ] = ( 1 − F n ( t ) ) t + ∑ i = 1 n E [ ( π i − t ) + ] F i − 1 ( t ) = ( 1 − F n ( t ) ) t + 1 − F n ( t ) 1 − F ( t ) E [ ( π − t ) + ] ≥ ( 1 − F n ( t ) ) t + 1 − F n ( t ) n ( 1 − F ( t ) ) E [ max i ( π i − t ) + ] ]\ge (1-q(t))t+\sum_{i=1}^nE[(\pi_i-t)^{+}]\Pr[\pi_j<t,\forall j<i]]\\=(1-F^{n}(t))t+\sum_{i=1}^nE[(\pi_i-t)^{+}]F^{i-1}(t)\\=(1-F^{n}(t))t+\frac{1-F^n(t)}{1-F(t)}E[(\pi-t)^{+}]\\\ge (1-F^{n}(t))t+\frac{1-F^n(t)}{n(1-F(t))}E[\max_i (\pi_i-t)^{+}] ]≥(1−q(t))t+∑i=1nE[(πi−t)+]Pr[πj<t,∀j<i]]=(1−Fn(t))t+∑i=1nE[(πi−t)+]Fi−1(t)=(1−Fn(t))t+1−F(t)1−Fn(t)E[(π−t)+]≥(1−Fn(t))t+n(1−F(t))1−Fn(t)E[maxi(πi−t)+]
- 又有 E [ max i π i ] ≤ t + E [ max i ( π i − t ) + ] E[\max_i \pi_i]\le t+E[\max_i (\pi_i-t)^{+}] E[maxiπi]≤t+E[maxi(πi−t)+], 取 t t t使得 F ( t ) = 1 − 1 n F(t)=1-\frac{1}{n} F(t)=1−n1即可, 则 1 − F n ( t ) = 1 − ( 1 − 1 n ) n ≥ 1 − 1 e 1-F^n(t)=1-(1-\frac{1}{n})^n\ge 1-\frac{1}{e} 1−Fn(t)=1−(1−n1)n≥1−e1
- 回顾类线性(quasi-linear)效用: v i ( ω ) − p i v_i(\omega)-p_i vi(ω)−pi
- 这对payments是没有约束的;
- 预算约束(budget constraints): max-possible payment by i i i
- Example: 搜索引擎关键词拍卖(keyword auction)
- budget1: bid-per-click
- budget2: daily budget
- 添加一些其他的budget:
- v i ( ω ) − p i v_i(\omega)-p_i vi(ω)−pi, 若 p i ≤ B i p_i\le B_i pi≤Bi
- − ∞ -\infty −∞, 若 p i > B i p_i>B_i pi>Bi
- Example: 这种情况下不能最大化surplus(expost)
- 单品拍卖(single-item auction): 我有很高的valuation, 但是我付不出这么高的价钱, 是否还能有一种拍卖机制使得将物品分配得到最大的surplus的
- 事实上这是不可能的
- 比如 B i = 1 ∀ i B_i=1\space \forall i Bi=1 ∀i, 有一个private valuation
- 需要一个新的拍卖机制
- Example: The Clinching Auction
- [Ausubet 04] [Dobzinski et al 08]
- Setup:
- m m m个相同的商品;
- 对于每个bidder i i i, 有个private的valuation, 且有一个public的预算 B i B_i Bi
- Initial Idea: 使用一个market-cleaning price
- 定义
i
i
i的在价格为
p
p
p时的需求:
- D i ( p ) = min { m , f l o o r ( B i p ) } D_i(p)=\min\{m,{\rm floor}(\frac{B_i}{p})\} Di(p)=min{m,floor(pBi)}, 若 p < v i p<v_i p<vi, f l o o r \rm floor floor函数是向下取整
- D i ( p ) = 0 D_i(p)=0 Di(p)=0, 若 p > v i p>v_i p>vi
- 注意: 其实这个第一段需求函数跟valuation并没有什么关系, valuation只影响整体需求函数在哪里被砍断, p p p一旦超过了 v i v_i vi这个机制就跟你没有关系了;
- 注意到
D
i
D_i
Di是关于
p
p
p单调递减的,
D
i
(
0
)
=
m
,
D
i
(
+
∞
)
=
0
D_i(0)=m,D_i(+\infty)=0
Di(0)=m,Di(+∞)=0
- 思考: D i D_i Di的形态大致是怎么样的?
- 令 p ∗ p^{*} p∗是最小的 p p p使得 m = ∑ i = 1 n D i ( p ) m=\sum_{i=1}^{n}D_i(p) m=∑i=1nDi(p)
- 对于任意 i i i, 给 i i i的商品数为 D i ( p ∗ ) D_i(p^{*}) Di(p∗), 要价为 p ∗ p^{*} p∗
- 好消息是Budget Respected
- 坏消息是这并不是DSIC(约等于demand reduction)
- Example:
m
=
2
,
B
1
=
+
∞
,
v
1
=
6
,
B
2
=
v
2
=
5
m=2,B_1=+\infty,v_1=6,B_2=v_2=5
m=2,B1=+∞,v1=6,B2=v2=5
- 假设bidder1出价6, bidder2出价5, 则bidder1可以得到2个物品, 效用为 2 ( 6 − 5 ) = 2 2(6-5)=2 2(6−5)=2
- 假设bidder1出价3, bidder2出价5, 则bidder1只会拿到1个物品, bidder2也只会拿到1个物品, 要价将会是3(思考), 对于bidder1来说效用为 6 − 3 = 3 6-3=3 6−3=3, 说假话效用却变高了;
- 定义
i
i
i的在价格为
p
p
p时的需求:
- 上面都是错误的想法, 回到The Clinching Auction
- 初始化 p = 0 , s = m p=0,s=m p=0,s=m
- while
s
>
0
s>0
s>0 {增加
p
p
p, 直到存在
i
i
i使得
s
−
∑
j
≠
i
D
j
(
p
)
>
0
s-\sum_{j\ne i}D_j(p)>0
s−∑j=iDj(p)>0}
- 即不断增加 p p p直到没有bidder i i i时, 物品卖不完;
- 给bidder i i i一共 k k k个物品, 要价为 p p p, 这些商品就是clinched
- decrease S S S by k k k
- decrease B i B_i Bi by p k pk pk
- 回到刚才两个例子:
m
=
2
,
B
1
=
+
∞
,
v
1
=
6
,
B
2
=
v
2
=
5
m=2,B_1=+\infty,v_1=6,B_2=v_2=5
m=2,B1=+∞,v1=6,B2=v2=5
- 显然 p = 0 p=0 p=0时两人都要两个
- 当 p p p增加到2.5时就会触发, 因为bidder2只能买一份了, 没有bidder1就卖不光了;
- 当 p p p增加到5.0时就会触发, 因为bidder2一份都买不起了, 两份都给bidder1;
- 真实报价情况下, bidder1会获得两个物品, 一个价格是2.5, 另一个价格是5;
- 定理: Clinching Auction is DSIC
- 证明:
- 固定 i , b ⃗ − i i,\vec b_{-i} i,b−i, 商品将会clinched当 p < v i p<v_i p<vi, contribute positive utility, 反之 p > v i p>v_i p>vi时, contribute negative utility
- 注意: kick out when
p
=
b
p=b
p=b
- 当 b i < v i b_i<v_i bi<vi, 算法执行结果都相同, 直到 p = b i p=b_i p=bi, 当 i i i被kick out ⇒ \Rightarrow ⇒ can only lose goods with positive utility
- 当 b i > b i b_i>b_i bi>bi, 是类似的
- 推论: Clinching Auction is DSIC, 但是这个命题本身没有任何含义, 因为我直接把商品免费送给bidder也是一个DSIC的拍卖
- 目前大家都不知道Clinching Auction到底好不好, 不知道如何用理论来刻画
- 证明:
Lecture 7
Lecture 7是最后一节与机制设计相关的课程, 接下来的课程将与是与BOA相关
- 引入: 很多场景是不能用money来衡量的:
- 器官捐赠
- 投票选举
- 摇号上学
- 房屋分配问题(House Allocation Problem):
- n n n个agent, 每个agent有一个房子
- 每个agent对于这些房子有一个偏好顺序
- 如何重新分配这 n n n个房子?
- Top Trading Cycle Algorithm (TTCA)
while agents remain: 1. each remaining agent points to favorite remaining house // 画出一个有向图表示这个favorite的情形, 可以证明这个图中必有环(指向自己视为环) 2. pick one cycle and its reallocation 3. delete its node 4. terminate with one house per person
- 显然这个机制不会使得任何人的结果变差, 因为只要你还在这个机制中, 你和你的房子都还在, 而你被删除时一定可以得到一个比自己房子更好的房子
- 定理7.1: with private preferences, TTCA is DSIC
- 证明:
- 固定 i i i和其他人汇报的最喜欢的房子列表
- 假设 i i i是诚实汇报, TTCA选出一个cycle: N 1 , N 2 , . . . , N l i ∈ N j N_1,N_2,...,N_l\space i\in N_j N1,N2,...,Nl i∈Nj
- 显然如果 i i i不诚实汇报, 它不可能挤进除 N j N_j Nj外的其他任何一个环中, 这是无法改变既定现实的, 所以不诚实汇报对于 i i i来说是没有意义的
- 证明:
- 定义: 核心分配core allocation
- 称一个分配方式是core allocation, 若它使得所有agents不能通过内部交换(重新分配)以达到所有成员都取得比该分配方式更好的结果(部分变好也可以, 但是不能有人变差)
- 定理7.2: TTCA得到的分配方式是一个唯一的core allocation
- 证明:
- 一方面: 证明TTCA的分配结果是core allocation
- 令 S S S是所有agents集合的任意子集, 我们证明在 S S S上不存在更好的分配方式
-
N
1
,
N
2
,
.
.
.
,
N
l
N_1,N_2,...,N_l
N1,N2,...,Nl, 令
j
j
j是第一次发生的迭代使得
N
j
∩
S
≠
∅
N_j\cap S\ne \emptyset
Nj∩S=∅且
i
∈
N
j
∩
S
i\in N_j\cap S
i∈Nj∩S
- 则可以推导出 i i i在 N 1 , N 2 , . . . , N j − 1 N_1,N_2,...,N_{j-1} N1,N2,...,Nj−1之外得到的最好的房子
- Note:
S
S
S中没有agents属于
N
1
,
N
2
,
.
.
.
,
N
j
−
1
N_1,N_2,...,N_{j-1}
N1,N2,...,Nj−1
- S S S中不存在重新分配使得 i i i能够获得严格更好的结果
- 另一方面: 证明TTCA分配结果是唯一的core allocation
- 所有在 N 1 N_1 N1的agent receive their first choice and must be true in any core allocation
- 同理 N 2 , N 3 , . . . N_2,N_3,... N2,N3,..., 唯一性可证
- 简而言之, 就是说第一轮迭代找到环里的人不会改变自己的结果, 同理排除掉这些人, 第二轮迭代的人也不会改变, 这是一个递归过程
- 证明:
- 案例分析: 肾脏交换(Kidney Exchange)
- old idea: deceased donors(如死刑犯, 濒死病危之人)
- also for kidneys, living donors(人有两个肾, 可以捐献一个)
- 问题: patient-donor imcompatibilities [Slide P.75 Figure 1]
- 每个patient都会有一个donor给他捐肾脏, 但是因为血型等原因导致肾脏不匹配, 但是可以通过调配来使得所有人得到适应的肾脏
- Fact: 目前除了伊朗, 器官买卖是违法的
- [Roth/Sonmoz/Unver '04,'05]
- Idea1: 使用TTCA
- agent(patient) initial house(donor) ⟺ \Longleftrightarrow ⟺ imcompatitble PD(patient-donor) pairs
- total ordering(全序) of houses ⟺ \Longleftrightarrow ⟺ possibilities of success
- 重新分配donors的肾脏给patients使得每个人都变得更好
- 推广[RSU’04]: 有些patients可能没有对应的捐赠者(没有房子的agent), 还有一些deceased donors(空房子), 这其实就比较复杂了, 属于前沿的研究问题, 事实上仍然是DSIC(not trivial)
- 问题1: TTCA分配方式可能会使用很长的cycle
- 因为这样需要同一个环内的手术同时进行, 可能会有donor反悔就会导致TTCA失效, 所以需要短的cycle
- 问题2: patients的偏好一般并非total ordering(全序), 而是binary的
- TTCA可能很难应用于实际
- Idea2: 使用匹配, 两两配对, 这样就可以做到short cycle
- nodes: imcompatible PD pairs
- edges: mutually compatible node pairs
- 目标是找到一个size最大的匹配(max-size matching)
- 可以在edge上添加权重, 表示两个PD pairs间匹配度, 此时目标是找到使得总weight值最大的匹配
- Note: matchings ⟺ \Longleftrightarrow ⟺ pairwise exchanges
- Motern approach考虑了3-way exchange, 即可以最多有三对PD间发生交换, 技术上可以实现同时做三台手术
- 模型:
- 每个node i i i 有一个私有的真实edge集合 E i E_i Ei, 且在汇报时可以汇报任何 F i ⊆ E i F_i\subseteq E_i Fi⊆Ei, 即汇报出自己想要和哪些PD pairs交换
- 目标: DSIC机制要能够使得每个节点 i i i汇报出 E i E_i Ei
- 机制:
V
V
V is known
- Gets reports F i F_i Fi, ∀ i \forall i ∀i
- Form E = { ( i , j ) : ( i , j ) ∈ F i ∩ F j } E=\{(i,j):(i,j)\in F_i\cap F_j\} E={(i,j):(i,j)∈Fi∩Fj}
- Return a max matching in G
- 问题: 选择哪一个max matching?
- 如 G = ( V , E ) G=(V,E) G=(V,E), V = { 1 , 2 , 3 , 4 } V=\{1,2,3,4\} V={1,2,3,4}, E = { ( 1 , 2 ) , ( 2 , 3 ) , ( 3 , 4 ) , ( 4 , 1 ) } E=\{(1,2),(2,3),(3,4),(4,1)\} E={(1,2),(2,3),(3,4),(4,1)}, 存在两个max matching: ( 1 , 2 ) , ( 3 , 4 ) (1,2),(3,4) (1,2),(3,4)和 ( 1 , 3 ) , ( 2 , 4 ) (1,3),(2,4) (1,3),(2,4), 事实上两者并没有区别
- 如 G = ( V , E ) G=(V,E) G=(V,E), V = { 1 , 2 , 3 , 4 , 5 } V=\{1,2,3,4,5\} V={1,2,3,4,5}, E = { ( 1 , 2 ) , ( 1 , 3 ) , ( 1 , 4 ) , ( 1 , 5 ) } E=\{(1,2),(1,3),(1,4),(1,5)\} E={(1,2),(1,3),(1,4),(1,5)}, 则 1 1 1必然被选上, 而其他4个人就只能随机选了, 他们就会有撒谎的动机
- 解决方案:
- 对节点进行预先的优先级排序 O = { 1 , 2 , 3 , . . . , n } O=\{1,2,3,...,n\} O={1,2,3,...,n}, 如有些patient的时间已经不多了, 优先级就会更高
- 思考: 是否应该以每个节点的度数排序? 度数越多的优先级越高?
- 令 M 0 = M_0= M0=max matchings of G G G
- 依次遍历集合
O
O
O中的
n
n
n个人:
- 令 Z i ⊆ M i − 1 Z_i\subseteq M_{i-1} Zi⊆Mi−1是包含节点 i i i的一个匹配
- 设 M i = Z i M_i=Z_i Mi=Zi, 若 Z i ≠ ∅ Z_i\ne \emptyset Zi=∅, 否则 M i = M i − 1 M_i=M_{i-1} Mi=Mi−1
- 输出 M n M_n Mn的任意匹配
- 举例:
- 假设图是一个三角形, 三个节点, 三条边
- M 0 = { ( 1 , 2 ) , ( 1 , 3 ) , ( 2 , 3 ) } M_0=\{(1,2),(1,3),(2,3)\} M0={(1,2),(1,3),(2,3)}
- Z 1 = { ( 1 , 2 ) , ( 1 , 3 ) } Z_1=\{(1,2),(1,3)\} Z1={(1,2),(1,3)}
- M 1 = { ( 1 , 2 ) , ( 1 , 3 ) } M_1=\{(1,2),(1,3)\} M1={(1,2),(1,3)}
- Z 2 = { ( 1 , 2 ) } Z_2=\{(1,2)\} Z2={(1,2)}
- M 2 = { ( 1 , 2 ) } M_2=\{(1,2)\} M2={(1,2)}
- Z 3 = ∅ Z_3=\emptyset Z3=∅
- M 3 = { ( 1 , 2 ) } M_3=\{(1,2)\} M3={(1,2)}
- Exercise: 这种解决方案机制的DSIC证明?
- 这里是2004-2005年的研究成果
- Cutting Edge: getting incentives right for hospitals
- Example1: 从医院的角度来看, 可能更愿意在同一个医院中匹配掉一些病人, 但是这就会达不到max matching:
- 如 G = ( V , E ) G=(V,E) G=(V,E), V = { 1 , 2 , 3 , 4 , 5 , 6 } V=\{1,2,3,4,5,6\} V={1,2,3,4,5,6}, E = { ( 4 , 1 ) , ( 1 , 2 ) , ( 2 , 5 ) , ( 5 , 6 ) , ( 6 , 3 ) } E=\{(4,1),(1,2),(2,5),(5,6),(6,3)\} E={(4,1),(1,2),(2,5),(5,6),(6,3)}, 其中 { 1 , 2 , 3 } \{1,2,3\} {1,2,3}是在同一医院里的, 其他三人在另一个医院, max matching是6个人, 但是同一个医院里处理掉就只有4个人;
- Example2:
- 如 G = ( V , E ) G=(V,E) G=(V,E), V = { 1 , 2 , 3 , 4 , 5 , 6 , 7 } V=\{1,2,3,4,5,6,7\} V={1,2,3,4,5,6,7}, E = { ( 1 , 2 ) , ( 2 , 3 ) , ( 3 , 4 ) , ( 4 , 5 ) , ( 5 , 6 ) , ( 6 , 7 ) } E=\{(1,2),(2,3),(3,4),(4,5),(5,6),(6,7)\} E={(1,2),(2,3),(3,4),(4,5),(5,6),(6,7)}, 其中 { 2 , 3 , 7 } \{2,3,7\} {2,3,7}是同一医院 A A A的, 其他4人是另一个医院 B B B的
- max matching是6个人, 但是在 B B B医院说真话的情况下, 医院 A A A可以选择把 ( 2 , 3 ) (2,3) (2,3)做掉, 然后只报过来一个 7 7 7, 就可以把自己的patients全部处理掉, 同理 B B B也有动机去撒谎(把 ( 5 , 6 ) (5,6) (5,6)先做掉), 使得自己医院里的patients全部被处理掉
- Example1: 从医院的角度来看, 可能更愿意在同一个医院中匹配掉一些病人, 但是这就会达不到max matching:
- 稳定匹配问题Stable Matching Problem
- 二部图: U , V , ∣ U ∣ = ∣ V ∣ = n U,V,|U|=|V|=n U,V,∣U∣=∣V∣=n
- each node has a ranked list for the other side
- 给出一个perfect matching(每个人都被匹配上), 使得没有一对男女node会私奔
- Killer Application
- 医学院学生选医院
- 小学生选择小学
- 事实上并非是一个二部图, 可能是一个完全图, 还可能并非两边的节点数量不一致
- 最简单的二部图及节点数量相等的情况的经典婚姻匹配算法(Proposal Algorithm)
- 单身的男生去追求女生(按照自己的偏好从好到坏依次追求), 女生单身就拿下, 不单身就比一比, 留下更好的男生, 被拒绝的男生将不会再追求该女生
- 直到所有男女都匹配上结束, 事实上算法将必然结束
- 定理7.3: Proposal Algorithm将会给出一个稳定匹配(不会有狗男女私奔)
- 首先算法一定会终止, 每轮结束(一轮指所有男生都发起了一次轮询), 单身男生追求的女生list会比上一轮结束时减少, 算法复杂度为 O ( n 2 ) O(n^2) O(n2)
- 其次这将是一个perfect matching, 因为如果存在剩男剩女, 他们没得选必须匹配, 所以一定每个人都将被匹配上
- 最后证明算法将得到一个stable matching:
- 显然对于每个男生, 拒绝过他的女生不可能与他私奔(他没有这些女生的当前伴侣好), 他也不可能向未追求过的女生私奔(因为这些女生没有男生现在的伴侣好)
- 推论1: 反直觉地, Proposal Algorithm对男生有利的, 因为男生将最终得到所有稳定匹配中(事实上稳定匹配是不唯一的)可能的最好的女生
- 证明:
- 我们希望证明如果一个男生被一个女生拒绝了, 那么在任何稳定匹配中都不会跟这个女生配对
- 数学归纳法:
- 假设男生 u u u被女生 v v v拒绝了, 原因是 v v v更喜欢 u ′ u^{\prime} u′
- Note: 由归纳假设, 所有 u ′ u^{\prime} u′可行的(feasible)女生仍然在他的list上, 且 v v v是处于top位置
- 如果 ( u , v ) (u,v) (u,v)出现在某个稳定匹配中, 那么 u ′ u^{\prime} u′将匹配到一个比 v v v差的女生, 那么此时就会发现 ( u ′ , v ) (u^{\prime},v) (u′,v)是一个blocking pair(会私奔)
- 证明:
- 推论2: 女生得到的结果将是所有stable matching中可能的最差结果
- 证明: 类似推论1, 略
- Exercise: 证明Proposal Algorithm对男生一侧是DSIC, 但是对于女生一侧不是DSIC
- 因此实际应用中把男生一侧作为学生, 另一侧是医院和学校这样即可
Lecture 8
- 无政府价格(Price of Anarchy, 下称POA)
-
POA旨在研究当存在自私的player, 即均衡无效时量化机制的无效性(quantifying the inefficiency of equilibira);
- when do games in the wild have near-optimal equilibria ?
-
回顾Braess’s Paradox('68)
- s → c ( x ) = x → A → c ( x ) = 1 → t s\rightarrow c(x)=x\rightarrow A\rightarrow c(x)=1\rightarrow t s→c(x)=x→A→c(x)=1→t
- s → c ( x ) = 1 → B → c ( x ) = x → t s\rightarrow c(x)=1\rightarrow B\rightarrow c(x)=x\rightarrow t s→c(x)=1→B→c(x)=x→t
- 此时均衡是 1 2 \frac{1}{2} 21的人走 s A t sAt sAt, 1 2 \frac{1}{2} 21的人走 s B t sBt sBt, 平均每人耗时 3 2 \frac{3}{2} 23
- 如果新建一条 c ( x ) = 0 c(x)=0 c(x)=0的路连接 A → B A\rightarrow B A→B, 则均衡变成了 s A B t sABt sABt, 平均每人耗时 2 2 2
- 因此后者的POA就是 2 ÷ 3 2 = 4 3 2 \div \frac{3}{2} = \frac{4}{3} 2÷23=34
-
另一个例子: Pigou‘s Example(1920)
- s → c ( x ) = x d → t s\rightarrow c(x)=x^d\rightarrow t s→c(x)=xd→t
- s → c ( x ) = 1 → t s\rightarrow c(x)=1\rightarrow t s→c(x)=1→t
- 如果想要使得所有人的平均cost最小, 则应当分别安排 1 2 \frac{1}{2} 21的人走两条路径, 平均cost为 3 4 \frac{3}{4} 43
- 但是均衡情况(或是自私的情况下)是所有人走前一条路, 平均cost为 1 1 1
- 同理POA值为 1 ÷ 3 4 = 4 3 1\div \frac{3}{4}=\frac{4}{3} 1÷43=34
-
是否任意网络的POA都不会比 4 3 \frac{4}{3} 34大? 看下面这个网络:
- s → c ( x ) = x d → t s\rightarrow c(x)=x^d\rightarrow t s→c(x)=xd→t
- s → c ( x ) = 1 → t s\rightarrow c(x)=1\rightarrow t s→c(x)=1→t
- 其中 d d d是非常大时, 自私的情况仍然是平均cost为 1 1 1
- 最优解为 x ⋅ 1 + ( 1 − x ) ⋅ ( 1 − x ) d x\cdot 1+(1-x)\cdot(1-x)^d x⋅1+(1−x)⋅(1−x)d将趋于零, 当 x → 0 x\rightarrow 0 x→0
- 该网络的POA将趋于无穷大
- 问题: 何时POA将会是比较小? 复杂网络的POA会变大还是变小?
- 事实上POA的存在是因为cost为非常数的边引起的;
- 模型:
- 图中有若干条路线从起始点指向终止地: r r r units of flow go from s s s to t t t in a direct graph G = ( V , E ) G=(V,E) G=(V,E)
- 图的边存在成本函数: edge
e
e
e has cost function
c
e
:
R
+
→
R
+
c_e: R^{+}\rightarrow R^{+}
ce:R+→R+
- 非负函数
- 不减函数
- 连续函数
- 主要结论(main result)[TR 02]: 本教材的编写者的研究成果
- Among all networks with cost functions in the set
C
C
C, Largest POA achieved in a pigou-network
- 简而言之就是POA由可变成本的边引起, 事实上这个表述并不精确, 没有详细定义何为pigou-network
- 因此最坏情况的网络总是很简单, 也很容易计算POA: worst case networks always simple ⇒ \Rightarrow ⇒ easy to compute POA
- Example: slide P.89-90
- worst POA is 4 3 \frac{4}{3} 34 if degree is 1 1 1 poly with nonneg coeffcient { a x + b ∣ a , b ≥ 0 } \{ax+b|a,b\ge0\} {ax+b∣a,b≥0}
- worst POA is 1.6 1.6 1.6 if degree is 1 1 1 poly with nonneg coeffcient { a x 2 + b x + c ∣ a , b , c ≥ 0 } \{ax^2+bx+c|a,b,c\ge0\} {ax2+bx+c∣a,b,c≥0}
- worst POA is 1.9 1.9 1.9 if degree is 1 1 1 poly with nonneg coeffcient { a x 3 + b x 2 + c + d ∣ a , b , c , d ≥ 0 } \{ax^3+bx^2+c+d|a,b,c,d\ge0\} {ax3+bx2+c+d∣a,b,c,d≥0}
- worst POA is 2.2 2.2 2.2 if degree is 1 1 1 poly with nonneg coeffcient { a x 4 + b x 3 + c x 2 + d ∣ a , b , c , d ≥ 0 } \{ax^4+bx^3+cx^2+d|a,b,c,d\ge0\} {ax4+bx3+cx2+d∣a,b,c,d≥0}
- Among all networks with cost functions in the set
C
C
C, Largest POA achieved in a pigou-network
- Pigou-like network
- 定义: 何为Pigou-like network?
- 2个节点, 2个边;
- traffic rate r ≥ 0 r\ge 0 r≥0
- 一条边的成本函数为 f n = c ( ⋅ ) f_n=c(\cdot) fn=c(⋅)
- 另一条边的成本为常数 c ( r ) c(r) c(r)
- Note: eq. flow = all traffic on top
→
\rightarrow
→ cost is
r
c
(
r
)
rc(r)
rc(r)
- 此时POA的值为 r c ( r ) min 0 ≤ x ≤ r { x c ( x ) + ( r − x ) c ( r ) } \frac{rc(r)}{\min_{0\le x\le r}\{xc(x)+(r-x)c(r)\}} min0≤x≤r{xc(x)+(r−x)c(r)}rc(r)
- Note: 可以relax约束
x
≤
r
x\le r
x≤r, 因为
c
c
c是不增的
- 求导: c ( x ) + x c ′ ( x ) − c ( r ) ≥ c ( x ) − c ( r ) c(x)+xc^{\prime}(x)-c(r)\ge c(x)-c(r) c(x)+xc′(x)−c(r)≥c(x)−c(r)
- 定义:
- 令 C C C是所有成本函数的集合
- Pigou bound
α
(
C
)
=
\alpha(C)=
α(C)=worst POA in a pigou-like network
-
⇒
α
(
C
)
=
sup
c
∈
C
sup
r
>
0
(
sup
x
≥
0
r
c
(
r
)
x
c
(
x
)
+
(
r
−
x
)
c
(
r
)
)
\Rightarrow \alpha(C)=\sup_{c\in C}\sup_{r\gt 0}(\sup_{x\ge 0}\frac{rc(r)}{xc(x)+(r-x)c(r)})
⇒α(C)=supc∈Csupr>0(supx≥0xc(x)+(r−x)c(r)rc(r))
- 分子是均衡状态, 分母是最优状态;
- Example: 如果 C = { a x + b ∣ a , b ≥ 0 } C=\{ax+b|a,b\ge 0\} C={ax+b∣a,b≥0}是一个affine functions集合, 则 α ( C ) = 4 3 \alpha(C)=\frac{4}{3} α(C)=34
-
⇒
α
(
C
)
=
sup
c
∈
C
sup
r
>
0
(
sup
x
≥
0
r
c
(
r
)
x
c
(
x
)
+
(
r
−
x
)
c
(
r
)
)
\Rightarrow \alpha(C)=\sup_{c\in C}\sup_{r\gt 0}(\sup_{x\ge 0}\frac{rc(r)}{xc(x)+(r-x)c(r)})
⇒α(C)=supc∈Csupr>0(supx≥0xc(x)+(r−x)c(r)rc(r))
- 定理: 对于任意集合
C
C
C, 任意带有
C
C
C中成本函数的网络, 它的POA
≤
α
(
C
)
\le \alpha(C)
≤α(C)
- 事实上一定存在一个pigou-like network的POA就等于 α ( C ) \alpha(C) α(C)
- 证明:
- 预备工作(preliminary):
- 令 G = ( V , E ) G=(V,E) G=(V,E), s s s- t t t network with r r r units of traffic
- 流(Flow): 非负向量
{
f
p
}
\{f_p\}
{fp} on
s
s
s-
t
t
t paths
p
∈
P
p\in P
p∈P
-
∑
p
∈
P
f
p
=
r
\sum_{p\in P}f_p=r
∑p∈Pfp=r,
f
p
f_p
fp指有多少人在走这条
s
s
s-
t
t
t路径
- 以Braess’s Paradox('68)为例子, 不建传送门上下两条路径的 f p f_p fp都是 1 2 \frac{1}{2} 21
-
f
e
=
∑
p
:
e
∈
p
f
p
f_e=\sum_{p:e\in p}f_p
fe=∑p:e∈pfp,
f
e
f_e
fe指有多少人在走一条边
- 以Braess’s Paradox('68)为例子, 建传送门后传送门的 f e f_e fe是 1 1 1
-
∑
p
∈
P
f
p
=
r
\sum_{p\in P}f_p=r
∑p∈Pfp=r,
f
p
f_p
fp指有多少人在走这条
s
s
s-
t
t
t路径
- 均衡流(Equilibrium Flow)
f
f
f:
f
p
^
>
0
f_{\hat p}\gt 0
fp^>0 only when
p
^
∈
arg min
p
∈
P
{
∑
e
∈
p
c
e
(
f
e
)
}
{\hat p} \in \argmin_{p\in P}\{\sum_{e\in p}c_e(f_e)\}
p^∈p∈Pargmin{∑e∈pce(fe)}
- 即要在最短路径上才会有人走
- c e ( f e ) c_e(f_e) ce(fe)就是 c p ( f ) c_p(f) cp(f)
- Fact: 一个均衡流总是存在的(by continuity), 暂且不证明, 相信它就可以了;
- 目标函数: total travel time
=
∑
p
∈
P
c
p
(
f
)
f
p
=
∑
e
∈
E
c
e
(
f
e
)
f
e
=\sum_{p \in P}c_p(f)f_p=\sum_{e\in E}c_e(f_e)f_e
=∑p∈Pcp(f)fp=∑e∈Ece(fe)fe
- Fact: 一个图中所有的均衡流的total travel time都是相同的, 暂且不证明, 相信它就可以了;
- 这样就不需要考虑要在哪个均衡流上取最优值了
- Fact: 一个图中所有的均衡流的total travel time都是相同的, 暂且不证明, 相信它就可以了;
- POA = c ( E q u i l i b r i u m F l o w ) c ( O p t i m a l F l o w ) =\frac{c(\rm Equilibrium Flow)}{c(\rm Optimal Flow)} =c(OptimalFlow)c(EquilibriumFlow)
- 定理证明:
- 固定 G G G与 C C C中的成本函数;
- 令 f f f为均衡流, f ∗ f^{*} f∗为最优流;
- Note: 均衡流中所有路径上的cost都是相等的, 否则就不是均衡了;
- ① Part1:
- 因为 f f f是均衡流, 则 f p > 0 ⇒ c p ( f ) ≤ c p ^ ( f ) p ^ ∈ P f_p\gt 0\Rightarrow c_p(f)\le c_{\hat p}(f)\quad {\hat p}\in P fp>0⇒cp(f)≤cp^(f)p^∈P
- 令
L
=
L=
L=common length of all equilibrium flow paths, 则有以下两个结论(均衡流下所有路径的
L
L
L都相等, 所以可以设出
L
L
L):
-
∑
p
f
p
c
p
(
f
)
=
r
L
\sum_{p}f_pc_p(f)=rL
∑pfpcp(f)=rL
- 解释: 若 f p > 0 f_p\gt 0 fp>0, 则 c p ( f ) c_p(f) cp(f)就是 L L L
- ∑ p f p ∗ c p ( f ) ≥ ∑ p f p ∗ L = r L \sum_{p}f_p^{*}c_p(f)\ge \sum_{p}f_p^{*}L=rL ∑pfp∗cp(f)≥∑pfp∗L=rL
-
∑
p
f
p
c
p
(
f
)
=
r
L
\sum_{p}f_pc_p(f)=rL
∑pfpcp(f)=rL
- 那么 ∑ e f e c e ( f e ) ≤ ∑ e f e ∗ c e ( f e ) ⇔ ∑ e ( f e ∗ − f e ) c e ( f e ) ≥ 0 \sum_{e}f_ec_e(f_e)\le \sum_{e}f_e^{*}c_e(f_e)\Leftrightarrow\sum_e(f_e^{*}-f_e)c_e(f_e)\ge 0 ∑efece(fe)≤∑efe∗ce(fe)⇔∑e(fe∗−fe)ce(fe)≥0
- ② Part2:
- 对于每个边 e ∈ E e\in E e∈E, instantiate c ← c e , r ← f e , x ← f e ∗ c\leftarrow c_e,r\leftarrow f_e,x\leftarrow f_e^{*} c←ce,r←fe,x←fe∗, 有如下不等式成立: α ( C ) ≥ f e c e ( f e ) f e ∗ c e ( f e ∗ ) + ( f e − f e ∗ ) c e ( f e ) \alpha(C)\ge \frac{f_ec_e(f_e)}{f_e^{*}c_e(f_e^{*})+(f_e-f_e^{*})c_e(f_e)} α(C)≥fe∗ce(fe∗)+(fe−fe∗)ce(fe)fece(fe)
- 移项合并后有 f e ∗ c e ( f e ∗ ) ≥ 1 α ( C ) f e c e ( f e ) + ( f e − f e ∗ ) c e ( f e ) f_e^{*}c_e(f_e^{*})\ge \frac{1}{\alpha(C)}f_ec_e(f_e)+(f_e-f_e^{*})c_e(f_e) fe∗ce(fe∗)≥α(C)1fece(fe)+(fe−fe∗)ce(fe)
- 最终对所有的 e e e累和: c ( f ∗ ) ≥ 1 α ( C ) c ( f ) + ∑ e ( f e ∗ − f e ) c e ( f e ) ≥ 1 α ( C ) c ( f ) c(f^{*})\ge \frac{1}{\alpha(C)}c(f)+\sum_e(f_e^{*}-f_e)c_e(f_e)\ge \frac{1}{\alpha(C)}c(f) c(f∗)≥α(C)1c(f)+∑e(fe∗−fe)ce(fe)≥α(C)1c(f)
- 预备工作(preliminary):
- 案例分析: 网络过度配给(networks over-provisioning) Slide P.95
- popular strategy: install more capacity than needed
- 如通信网络中不会把edge建成满负荷的, 会有很大的浪费, 但是这也是现实的做法, 就是不能满负荷;
- why?
- ① empirically network functions better: 经验上这么做是好的
- ② can be cheaper than enforcing quality-of-service(QOS)/admission control: 虽然没有满负荷, 但是本身调度是需要成本的, 因此可能会相对更优
- 考虑一个selfish routing network, 成本函数为:
- c e ( x ) = 1 u e − x c_e(x)=\frac{1}{u_e-x} ce(x)=ue−x1, 若 x < u e x\lt u_e x<ue
- c e ( x ) = + ∞ c_e(x)=+\infty ce(x)=+∞, 若 x ≥ u e x\ge u_e x≥ue
- 即成本会在最大负荷 u e u_e ue, 接近负荷的成本会急剧增长
- 假设: 网络是 β \beta β-over provisioned, 即均衡情况下 f e ≤ ( 1 − β ) u e , ∀ e ∈ E f_e\le (1-\beta)u_e,\forall e\in E fe≤(1−β)ue,∀e∈E
- 结论: POA ≤ 1 2 ( 1 + 1 β ) \le \frac{1}{2}(1+\sqrt{\frac{1}{\beta}}) ≤21(1+β1)
- 事实上上面的例子中的成本函数太特殊, 我们来看一般的情况:
- 回顾: 本Lecture中第1点里举出的那个POA为无穷的那个例子 c ( x ) = x d c(x)=x^d c(x)=xd
- compare eq. to weaker OPT that sends additional traffic;
- Equivalent: OPT forced to use slower network (but same traffic);
- 定理: 对于每个selfish routing network, 在
r
r
r units的traffic下均衡流的成本不大于
2
r
2r
2r units的traffic下的最优流的成本, 这对任何成本函数都成立;
- 即与其调控, 不如把路造得宽一些;
- 证明:
- 令 f f f为均衡流( r r r units), f ∗ f^{*} f∗为最优流( 2 r 2r 2r units);
- 令 L L L为common cost of all eq. paths
- 则均衡流的cost = ∑ p ∈ P f p c p ( f ) = r L =\sum_{p\in P}f_pc_p(f)=rL =∑p∈Pfpcp(f)=rL
- 则最优流的cost = ∑ p ∈ P f p ∗ c p ( f ) ≥ ∑ p ∈ P f p ∗ L = 2 r L =\sum_{p\in P}f_p^{*}c_p(f)\ge \sum_{p\in P}f_p^{*}L=2rL =∑p∈Pfp∗cp(f)≥∑p∈Pfp∗L=2rL
- To finish, 只需要证明:
∑
e
f
e
∗
c
e
(
f
e
∗
)
≥
∑
e
f
e
∗
c
e
(
f
e
)
−
∑
e
f
e
c
e
(
f
e
)
\sum_{e}f_e^{*}c_e(f_e^{*})\ge \sum_{e}f_e^{*}c_e(f_e)-\sum_{e}f_ec_e(f_e)
e∑fe∗ce(fe∗)≥e∑fe∗ce(fe)−e∑fece(fe)
- 即cost of f ∗ ≥ 2 r L − r L = r L = ∑ e f e c e ( f e ) f^{*}\ge 2rL-rL=rL=\sum_{e}f_ec_e(f_e) f∗≥2rL−rL=rL=∑efece(fe)
- 事实上, 对于每个
e
∈
E
e\in E
e∈E
-
f
e
∗
c
e
(
f
e
∗
)
≥
f
e
∗
c
e
(
f
e
)
−
f
e
c
e
(
f
e
)
f_e^{*}c_e(f_e^{*})\ge f_e^{*}c_e(f_e)-f_ec_e(f_e)
fe∗ce(fe∗)≥fe∗ce(fe)−fece(fe)
- 不等式左边是cost of f ∗ f^{*} f∗
- 不等式右边第一项 f e ∗ c e ( f e ) ≥ 2 r L f_e^{*}c_e(f_e)\ge 2rL fe∗ce(fe)≥2rL
- 不等式右边第二项 f e c e ( f e ) ≥ r L f_ec_e(f_e)\ge rL fece(fe)≥rL
- 上式等价于 f e ∗ [ c e ( f e ) − c e ( f e ∗ ) ] ≤ f e c e ( f e ) f_e^{*}[c_e(f_e)-c_e(f_e^{*})]\le f_ec_e(f_e) fe∗[ce(fe)−ce(fe∗)]≤fece(fe)
- 辅助证明的图片
- 若 f e ∗ ≥ f e f_e^{*}\ge f_e fe∗≥fe, 则上式的左边LHS ≤ 0 \le 0 ≤0, 是非正的, 这就没有什么好证明的了, 平凡;
- f e ∗ < f e ⇒ f_e^{*}\lt f_e \Rightarrow fe∗<fe⇒ LHS ≤ f e ∗ c e ( f e ) ≤ f e c e ( f e ) \le f_e^{*}c_e(f_e)\le f_ec_e(f_e) ≤fe∗ce(fe)≤fece(fe)从图表中看也是显然的;
- 关于上述证明详见Slide P.99-100的图表;
-
f
e
∗
c
e
(
f
e
∗
)
≥
f
e
∗
c
e
(
f
e
)
−
f
e
c
e
(
f
e
)
f_e^{*}c_e(f_e^{*})\ge f_e^{*}c_e(f_e)-f_ec_e(f_e)
fe∗ce(fe∗)≥fe∗ce(fe)−fece(fe)
- Atomic Selfish Routing: 每个人都控制一单位的
-
模型:
- k k k个players
- 每个player有1个source s s s, 1个sink t t t
- each routes 1 unit of traffic on a single s i s_i si- t i t_i ti path [to minimize path cost]
-
Example:
- s 1 , s 2 ∈ s s_1,s_2\in s s1,s2∈s, t 1 , t 2 ∈ t t_1,t_2\in t t1,t2∈t
- s s s- t t t有两条路径, 一条 c ( x ) = x c(x)=x c(x)=x, 另一条 c ( x ) = 2 c(x)=2 c(x)=2
- OPT: 两个player一人占用一条路径, 这是一个纳什均衡, cost为3;
- 事实上两个都走 c ( x ) = x c(x)=x c(x)=x也是一个纳什均衡, cost为4;
- 这就与连续的selfish routing不同了, 不同均衡流的cost可能有区别了;
-
定义: 对于多个均衡流, POA = c o s t o f w o r s t e q . c o s t o f o p t . =\frac{\rm cost\space of\space worst\space eq.}{\rm cost\space of\space opt.} =cost of opt.cost of worst eq.
- 上面的Example中的POA就是 4 3 \frac{4}{3} 34
-
Example: 一个比较复杂的图
- 这个图中的POA恰好为2.5, 比较复杂, 需要花一段时间去看, 详细解释在Slide P.100
- 最优流为所有player在1-hop的路径, cost为4
- 均衡流为所有player在2-hop的路径, cost为10
- POA计算为2.5
-
定理: 任意atomic selfish routing network with affine cost functions { a x + b ∣ a , b ≥ 0 } \{ax+b|a,b\ge 0\} {ax+b∣a,b≥0}, 则POA不会超过2.5;
- 证明:
-
预先工作:
- 令 f f f为均衡流, f ∗ f^{*} f∗为最优流
- 设 c e ( x ) = a e x + b e ∀ e c_e(x)=a_ex+b_e\quad \forall e ce(x)=aex+be∀e
- 定义 f e f_e fe是在各自路径中使用 e e e的player总数
-
① Step1:
- 因为
f
f
f是一个均衡流, 所以任意一个player
i
i
i都不会想要切换自己的路径
p
i
→
p
i
∗
p_i\rightarrow p_i^{*}
pi→pi∗
- p i p_i pi是 i i i的纳什均衡路径, p i ∗ p_i^{*} pi∗是 i i i在最优解下的路径;
- 那么 i i i要是变了呢?
- 举个例子:
c
p
i
(
f
)
=
∑
e
∈
p
i
c
e
(
f
e
)
≤
∑
e
∈
p
i
∩
p
i
∗
c
e
(
f
e
)
+
∑
e
∈
p
i
∗
−
p
i
c
e
(
f
e
+
1
)
≤
∑
e
∈
p
i
∩
p
i
∗
c
e
(
f
e
+
1
)
+
∑
e
∈
p
i
∗
−
p
i
c
e
(
f
e
+
1
)
=
∑
e
∈
p
i
∗
c
e
(
f
e
+
1
)
c_{p_i}(f)=\sum_{e\in p_i}c_e(f_e)\\\le\sum_{e\in p_i\cap p_i^{*}}c_e(f_e)+\sum_{e\in p_i^{*}-p_i}c_e(f_e+1)\\\le\sum_{e\in p_i\cap p_i^{*}}c_e(f_e+1)+\sum_{e\in p_i^{*}-p_i}c_e(f_e+1)\\=\sum_{e\in p_i^{*}}c_e(f_e+1)
cpi(f)=e∈pi∑ce(fe)≤e∈pi∩pi∗∑ce(fe)+e∈pi∗−pi∑ce(fe+1)≤e∈pi∩pi∗∑ce(fe+1)+e∈pi∗−pi∑ce(fe+1)=e∈pi∗∑ce(fe+1)
- 如果除了 i i i外所有人都没有改变自己的路径, 则 p i p_i pi与 p i ∗ p_i^{*} pi∗重合的部分不变, 不重合的部分 p i p_i pi少一个人走, p i ∗ p_i^{*} pi∗多一个人走,
- 因为
f
f
f是一个均衡流, 所以任意一个player
i
i
i都不会想要切换自己的路径
p
i
→
p
i
∗
p_i\rightarrow p_i^{*}
pi→pi∗
-
② Step2: sum over i i i, Slide P.102
- LHS = ∑ i = 1 k ∑ e ∈ p i c e ( f e ) = ∑ e ∈ E f e c e ( f e ) =\sum_{i=1}^{k}\sum_{e\in p_i}c_e(f_e)=\sum_{e\in E}f_ec_e(f_e) =∑i=1k∑e∈pice(fe)=∑e∈Efece(fe), 结果就是均衡流的成本;
- RHS ≤ ∑ i = 1 k ∑ e ∈ p i ∗ c e ( f e + 1 ) = ∑ e ∈ E f e ∗ c e ( f e + 1 ) = ∑ e ∈ E f e ∗ ( a e ( f e + 1 ) + b e ) = ∑ e ∈ E [ a e f e ∗ ( f e + 1 ) + b e f e ∗ ] \le\sum_{i=1}^{k}\sum_{e\in p_i^{*}}c_e(f_e+1)=\sum_{e\in E}f_e^{*}c_e(f_e+1)\\=\sum_{e\in E}f_e^{*}(a_e(f_e+1)+b_e)\\=\sum_{e\in E}[a_ef_e^{*}(f_e+1)+b_ef_e^{*}] ≤i=1∑ke∈pi∗∑ce(fe+1)=e∈E∑fe∗ce(fe+1)=e∈E∑fe∗(ae(fe+1)+be)=e∈E∑[aefe∗(fe+1)+befe∗]
-
③ Step3: 数学命题
- 任意 y , z ∈ N y,z\in N y,z∈N, 有 y ( z + 1 ) ≤ 5 3 y 2 + 1 3 z 2 y(z+1)\le \frac{5}{3}y^2+\frac{1}{3}z^2 y(z+1)≤35y2+31z2
- 则均衡流的cost(Slide P.102) C ( f ) ≤ ∑ e ∈ E [ a e ( 5 3 f e ∗ 2 + 1 3 f e 2 + b e f e ∗ ) ] ≤ 5 3 [ ∑ e ∈ E f e ∗ ( a e f e ∗ + b e ) ] + 1 3 ∑ e ∈ E a e f e 2 ≤ 5 3 C ( f ∗ ) + 1 3 C ( f ) C(f)\le\sum_{e\in E}[a_e(\frac{5}{3}{f_e^{*}}^2+\frac{1}{3}f_e^2+b_ef_e^{*})]\\\le\frac{5}{3}[\sum_{e\in E}f_e^{*}(a_ef_e^{*}+b_e)]+\frac{1}{3}\sum_{e\in E}a_ef_e^2\\\le\frac{5}{3}C(f^{*})+\frac{1}{3}C(f) C(f)≤e∈E∑[ae(35fe∗2+31fe2+befe∗)]≤35[e∈E∑fe∗(aefe∗+be)]+31e∈E∑aefe2≤35C(f∗)+31C(f)
- 两边同时减去 1 3 C ( f ) \frac{1}{3}C(f) 31C(f)就可以得到2.5的边界(妙啊)
-
- 证明:
Lecture 9
- 前章回顾:
- 上一次证明了在atomic selfish routing network中, 如果成本函数是仿射函数( c ( x ) = a x + b c(x)=ax+b c(x)=ax+b), 则最坏的POA = 5 2 =\frac{5}{2} =25
- 但是我们如何知道一个均衡流是存在的呢?
- 定理: [Rosenthal’s Theorem] Slide P.104
- 定理内容: 每个atomic selfish routing network中(任意成本函数), 都至少有一个均衡流;
- 证明: 将通过证明这种游戏是一个potential games(势能游戏)
- 定义:
- 一个potential function(势能函数)是指: Φ ( f ) = ∑ e ∈ E ∑ i = 1 f e c e ( i ) \Phi(f)=\sum_{e\in E}\sum_{i=1}^{f_e}c_e(i) Φ(f)=e∈E∑i=1∑fece(i)
- 可以从下图中直观的看出total cost/travel tim(
f
e
c
e
(
f
e
)
f_ec_e(f_e)
fece(fe))与势能函数的关系
- Key Claim: 固定其他player不变,
i
i
i改变了自己的路径, 有如下等式成立
- 此时flowc从 f f f变为了 f ^ \hat f f^, 因为 i i i改变了自己的路径( p i p_i pi变为 p ^ i {\hat p}_i p^i)
- 则宣称
Φ
(
f
^
)
−
Φ
(
f
)
=
∑
e
∈
p
^
i
c
e
(
f
^
e
)
−
∑
e
∈
p
i
c
e
(
f
e
)
\Phi(\hat f)-\Phi(f)=\sum_{e\in {\hat p_i}}c_e({\hat f}_e)-\sum_{e\in p_i}c_e(f_e)
Φ(f^)−Φ(f)=∑e∈p^ice(f^e)−∑e∈pice(fe)
- 等式左边是势能函数的变化, 等式右边是 i i i的成本变化;
- 解释:
- 同时在 p i p_i pi和 p ^ i {\hat p}_i p^i中的边可以不考虑, 因为没有发生变化;
- 则有: LHS = ∑ e ∈ p ^ i − p i c e ( f e + 1 ) − ∑ e ∈ p i − p ^ i c e ( f e ) = =\sum_{e\in {\hat p}_i-p_i}c_e(f_e+1) - \sum_{e\in p_i-{\hat p}_i}c_e(f_e)= =∑e∈p^i−pice(fe+1)−∑e∈pi−p^ice(fe)=RHS
- 只需令
f
∗
=
arg min
Φ
(
f
)
f^{*}=\argmin \Phi(f)
f∗=argminΦ(f)即可, 这是一个纯纳什均衡;
- 则任何player无法通过改变自身的路径来减小 Φ \Phi Φ, 从而就无法减小自身的成本;
- 则 f ∗ f^{*} f∗将是一个均衡流;
- 定义:
- 定理扩展:
- 即便 c e c_e ce并非不增函数, 该定理也成立(因为证明中没有使用 c e c_e ce为不减函数的条件);
- 对于arbitrary p i p_i pi of a ground set E E E, 定理也成立, 因为证明中没有要求 p i p_i pi是一条连续路径, 就算是在图中任意取一些离散的边也成立, 此时游戏变为congestion games
- 对于non-atomic selfish routing network, 使用势能函数:
Φ
(
f
)
=
∑
e
∈
E
∫
0
f
e
c
e
(
x
)
d
x
\Phi(f)=\sum_{e\in E}\int_{0}^{f_e}c_e(x){\rm d}x
Φ(f)=e∈E∑∫0fece(x)dx
- 要求 Φ \Phi Φ是连续的, 从而全局最小值才存在, 这就是一个均衡流
- 要求 Φ \Phi Φ是凸的; 若 c e c_e ce是不增的, 则全局最小值是唯一的(local minimizer/eq. flow)
- 此时我们解决了上节课的遗留问题, 即如果network中一定存在均衡流, 且若存在多个均衡流, 则它们的成本是相同的;
- 问题: what about games with no (pure) eq.?
- 举个例子: selfish routing with non-uniform player weights(AGT book, Ex 18.7), 猜拳游戏(石头剪刀布), etc;
- A Hierarchy of Equilibrium Concepts: 均衡概念的阶层 Slide P.107-P.110
- 定义: a cost minimization game(成本最小化游戏)
- k k k个players
- 策略集合: S 1 , S 2 , . . . , S K S_1,S_2,...,S_K S1,S2,...,SK
- ∀ i \forall i ∀i, 一个cost function c i ( S ⃗ ) , [ S ⃗ ∈ S 1 × S 2 . . . × S K ] c_i(\vec S), [\vec S \in S_1× S_2 ... × S_K] ci(S),[S∈S1×S2...×SK]
- 定义[PNE]:
- s ⃗ \vec s s是一个纯纳什均衡(PNE), 若对于 ∀ i , ∀ s i ′ ∈ S i \forall i, \forall s_i^{\prime}\in S_i ∀i,∀si′∈Si, 有 c i ( s ⃗ ) ≤ c i ( s i ′ , s ⃗ − i ) c_i(\vec s)\le c_i(s_i^{\prime},\vec s_{-i}) ci(s)≤ci(si′,s−i)
- 问题: PNE未必存在, 所以需要定义混合纳什均衡(MNE)
- 定义[MNE]:
- 称从混合纳什均衡中得到一个分布 σ 1 , σ 2 , . . . , σ K \sigma_1,\sigma_2,...,\sigma_K σ1,σ2,...,σK over S 1 , S 2 , . . . , S K S_1,S_2,...,S_K S1,S2,...,SK
- 若 ∀ i , ∀ s i ′ ∈ S i \forall i, \forall s_i^{\prime}\in S_i ∀i,∀si′∈Si, 则 E s ⃗ ∼ σ ⃗ [ c i ( s ⃗ ) ] ≤ E s ⃗ − i ∼ σ ⃗ − i [ c i ( s i ′ , s ⃗ − i ) ] E_{{\vec s} \sim {\vec \sigma}}[c_i(\vec s)]\le E_{\vec s_{-i} \sim \vec \sigma_{-i}}[c_i(s_i^{\prime},\vec s_{-i})] Es∼σ[ci(s)]≤Es−i∼σ−i[ci(si′,s−i)]
- Facts:
- ① 混合纳什均衡总是存在;
- ② 但是绝大多数混合纳什均衡是计算不可行的(computation intractable): 介于P与NPC之间的难度
- 理论上现实情况中达到纳什均衡是不太可能的事情, 因为计算机都算不出来的东西, 应当是无法在自然演化中最终收敛到;
- 因此引出了一些其他均衡的定义;
- 定义[CE]: correlated equilibrium 相互均衡
- 称在 S 1 × S 2 . . . × S K S_1× S_2 ... × S_K S1×S2...×SK上的一个分布 σ \sigma σ是correlated equilibrium
- 若
∀
i
,
∀
s
i
∈
S
i
,
∀
s
i
′
∈
S
i
\forall i, \forall s_i \in S_i,\forall s_i^{\prime} \in S_i
∀i,∀si∈Si,∀si′∈Si, 有
E
s
⃗
∼
σ
[
c
i
(
s
⃗
)
∣
s
i
]
≤
E
s
⃗
∼
σ
[
c
i
(
s
i
′
,
s
⃗
−
i
)
∣
s
i
]
E_{\vec s \sim \sigma}[c_i(\vec s)|s_i]\le E_{\vec s \sim \sigma}[c_i(s_i^{\prime},\vec s_{-i})|s_i]
Es∼σ[ci(s)∣si]≤Es∼σ[ci(si′,s−i)∣si]
- 备注:
- from gyf: 给不等式两端再加一重期望 E E E就是得到CCE, 因此CE是更强的概念
- 备注:
- 这似乎很难理解, 举个例子是石头剪刀布游戏中以前的MNE是每个人分别以 1 3 \frac{1}{3} 31出石头剪刀布, 此处我们要求两人同时出某种组合的概率是一个值(同时出石头的概率为 1 4 \frac{1}{4} 41)
- Original Semantics:
- σ \sigma σ是公开的共同知识;
- 可信任的第三方(TTP)私下采样一个 s ⃗ ∼ σ \vec s \sim \sigma s∼σ
- 对于每个 i i i, TTP私下建议他使用策略 s i s_i si
- ∀ i \forall i ∀i, i i i最小化期望成本, 通过在 s − i s_{-i} s−i的条件下playing s i s_i si, 假设以他人都使用了TTP推荐的策略;
- 举个例子:
- 红绿灯处, 两个人分别要东西和南北横穿, 显然有两个PNE, 一个通过另一个人停下;
- 令 σ \sigma σ为以五成五成的概率随机取这两个PNE的分布, 则这种策略不是PNE和MNE, 但是这是一种CE
- 显然这里可信任的第三方(TTP)就是红绿灯;
- Exercise: MNE correspond to CE That are product dist;
- Fact: CE是计算可行的;
- 定义[CCE]:
- 称在 S 1 × S 2 . . . × S K S_1× S_2 ... × S_K S1×S2...×SK上的一个分布 σ \sigma σ是coarse correlated equilibrium(粗糙的相互均衡);
- 若 ∀ i , ∀ s i ′ ∈ S i \forall i, \forall s_i^{\prime}\in S_i ∀i,∀si′∈Si, 有 E s ⃗ ∼ σ [ c i ( s ⃗ ) ] ≤ E s ⃗ ∼ σ [ c i ( s i ′ , s ⃗ − i ) ] E_{\vec s\sim \sigma}[c_i(\vec s)]\le E_{\vec s\sim \sigma}[c_i(s_i^{\prime},\vec s_{-i})] Es∼σ[ci(s)]≤Es∼σ[ci(si′,s−i)]
- 不等式左边是决定要听TTP的建议结果, 右边是不听TTP的建议的结果, 区别于CE的地方是, player需要更早的决定到底要不要听TTP的;
- Exercise: CE是一种CCE, 但是并非coursely的
- 最后用一张图来展示各种均衡的区别
- 每个PNE都是一个MNE, 每个MNE都是CE, 每个CE都是一个CCE;
- Smooth Games 光滑游戏 Slide P.112 Lecture 14
-
Step in ME/CK proof(回顾POA值为 5 2 \frac{5}{2} 25的证明)
- ① invoke(引用) PNE hypothesis to derive c i ( s ⃗ ) ≤ c i ( s i ∗ , s ⃗ − i ) c_i(\vec s)\le c_i(s_i^{*},\vec s_{-i}) ci(s)≤ci(si∗,s−i)
- ② sum over i i i
- ③ relate entangled term ∑ i = 1 K c i ( s i ∗ , s ⃗ − i ) \sum_{i=1}^{K}c_i(s_i^{*},\vec s_{-i}) ∑i=1Kci(si∗,s−i) to 5 3 c o s t ( s ∗ ) + 1 3 c o s t ( s ) \frac{5}{3} {\rm cost}(s^{*}) + \frac{1}{3} {\rm cost}(s) 35cost(s∗)+31cost(s)
- ④ 最终解出POA值为 5 2 \frac{5}{2} 25
-
A Location Game: 选址问题
- 可行的地点集合 F F F
- 市场集合 M M M, 其中每个元素 j ∈ M j\in M j∈M有一个公开的价值 v j v_j vj 这是市场愿意对服务付出的最大价值;
- 成本 c l j c_{l_j} clj是服务 j ∈ M j\in M j∈M来自 l ∈ F l \in F l∈F
- 共有 k k k个player, 每个player选择一个地点集合 F i ⊆ F F_i\subseteq F Fi⊆F
- 举个例子(文字说明Slide P.113 - P.114):
- 即player的回报(payoff)为
π
i
(
s
⃗
)
=
∑
j
∈
M
π
i
j
(
s
⃗
)
\pi_i(\vec s)=\sum_{j\in M}\pi_{ij}(\vec s)
πi(s)=∑j∈Mπij(s), 其中:
- 若 c l j ≥ v j c_{lj}\ge v_j clj≥vj或 l ∈ C l\in C l∈C是 C C C中距离 j j j最近的地点, 则 π i j ( s ⃗ ) = 0 \pi_{ij}(\vec s)=0 πij(s)=0
- 否则 π i j ( s ⃗ ) = d j ( 2 ) ( s ⃗ ) − c l j \pi_{ij}(\vec s)=d_j^{(2)}(\vec s)-c_{lj} πij(s)=dj(2)(s)−clj, 其中 d j ( 2 ) = min { v j , 2 n d c l o s e s t l o c a t i o n t o j } d_j^{(2)}=\min\{v_j,{\rm 2nd\space closest\space location\space to\space} j\} dj(2)=min{vj,2nd closest location to j}, 即 d j ( 2 ) d_j^{(2)} dj(2)是距离 j j j第二近的地点;
- 这里之所以是2nd, 其实代表这是一个次价拍卖;
- 目标函数: max surplus
V
(
s
⃗
)
=
∑
j
∈
M
[
v
j
−
d
j
(
s
⃗
)
]
V(\vec s)=\sum_{j\in M}[v_j-d_j(\vec s)]
V(s)=∑j∈M[vj−dj(s)]
- 其中 d j = min { v j , c l o s e s t l o c a t i o n t o j } d_j=\min\{v_j,{\rm closest\space location\space to\space} j\} dj=min{vj,closest location to j}
- 定理[Vetla '02]: 在每个这样的光滑游戏中, PNE的POA
≥
1
2
\ge \frac{1}{2}
≥21
- 三个关键性质(证明中主要用到这三个性质):
- ①
∀
s
⃗
\forall \vec s
∀s, 有
∑
i
=
1
K
π
i
(
s
⃗
)
≤
V
(
s
⃗
)
\sum_{i=1}^{K}\pi_i(\vec s)\le V(\vec s)
∑i=1Kπi(s)≤V(s)
- 即player的收益总是比目标函数要低, 因为目标函数是用一价算的surplus, 收益是次价成交;
- ②
π
i
(
s
⃗
)
=
V
(
s
⃗
)
−
v
(
s
⃗
−
i
)
\pi_i(\vec s)=V(\vec s)-v(\vec s_{-i})
πi(s)=V(s)−v(s−i)
- 左边是player i i i的收益, 右边其实就是VCG中提到的外部性收益, 没有 i i i和有 i i i的区别;
- 此处的外部性并不那么显然, 可以看到RHS
=
∑
j
[
d
j
o
l
d
−
d
j
n
e
w
]
=\sum_j[d_j^{\rm old}-d_j^{\rm new}]
=∑j[djold−djnew]
- 要么 d j n e w 与 d j o l d d_j^{\rm new}与d_j^{\rm old} djnew与djold相同, 即 i i i没有赢得市场;
- 要么 i i i赢得市场, 则 d j o l d d_j^{\rm old} djold就是2nd最近的距离;
- 则RHS就是LHS
- ③ 函数
V
V
V是一个次模函数(submodular function), 即对于任意地点
l
l
l和集合
T
1
⊆
T
2
T_1\subseteq T_2
T1⊆T2, 有
V
(
T
2
∪
{
l
}
)
−
V
(
T
2
)
≤
V
(
T
1
∪
{
l
}
)
−
V
(
T
1
)
V(T_2\cup \{l\})-V(T_2)\le V(T_1\cup \{l\})-V(T_1)
V(T2∪{l})−V(T2)≤V(T1∪{l})−V(T1)
- 即同样的自变量调整发生在大集合中的函数值变化要比小集合中的函数值变化要更小;
- ①
∀
s
⃗
\forall \vec s
∀s, 有
∑
i
=
1
K
π
i
(
s
⃗
)
≤
V
(
s
⃗
)
\sum_{i=1}^{K}\pi_i(\vec s)\le V(\vec s)
∑i=1Kπi(s)≤V(s)
- 定理证明:
- 令 s ⃗ \vec s s是一个PNE, s ⃗ ∗ \vec s^{*} s∗是OPT;
- ① Step1: 因为 s ⃗ \vec s s是PNE, 则有 π i ( s ⃗ ) ≥ π i ( s i ∗ , s ⃗ − i ) \pi_i(\vec s)\ge \pi_i(s_i^{*},\vec s_{-i}) πi(s)≥πi(si∗,s−i)对 ∀ i \forall i ∀i成立;
- ② Step2: 对 i i i累和, 有 V ( s ⃗ ) ≥ ∑ i = 1 K π i ( s ⃗ ) ≥ ∑ i = 1 K π i ( s i ∗ , s ⃗ − i ) V(\vec s)\ge \sum_{i=1}^{K}\pi_i(\vec s)\ge \sum_{i=1}^{K}\pi_i(s_i^{*},\vec s_{-i}) V(s)≥i=1∑Kπi(s)≥i=1∑Kπi(si∗,s−i)
- ③ Step3: 宣称
∑
i
=
1
K
π
i
(
s
i
∗
,
s
⃗
−
i
)
≥
V
(
s
⃗
∗
−
V
(
s
⃗
)
)
\sum_{i=1}^K\pi_i(s_i^{*},\vec s_{-i})\ge V(\vec s^{*}-V(\vec s))
∑i=1Kπi(si∗,s−i)≥V(s∗−V(s))
- 证明: LHS等于 ∑ i = 1 K [ V ( s i ∗ , s ⃗ − i ) − V ( s ⃗ − i ) ] ≥ ∑ i = 1 K [ V ( s 1 ∗ , s 2 ∗ , . . . , s i − 1 ∗ , s i ∗ , s ⃗ ) − V ( s 1 ∗ , s 2 ∗ , . . . , s i − 1 ∗ , s ⃗ ) ] = V ( s ⃗ ∗ ∪ s ⃗ ) − V ( s ⃗ ) ≥ V ( s ⃗ ∗ ) − V ( s ⃗ ) \sum_{i=1}^K[V(s_i^{*},\vec s_{-i})-V(\vec s_{-i})]\\\ge \sum_{i=1}^K[V(s_1^{*},s_2^{*},...,s_{i-1}^{*},s_{i}^{*},\vec s)-V(s_1^{*},s_2^{*},...,s_{i-1}^{*},\vec s)]\\=V(\vec s^{*} \cup \vec s)-V(\vec s)\\\ge V(\vec s^{*})-V(\vec s) i=1∑K[V(si∗,s−i)−V(s−i)]≥i=1∑K[V(s1∗,s2∗,...,si−1∗,si∗,s)−V(s1∗,s2∗,...,si−1∗,s)]=V(s∗∪s)−V(s)≥V(s∗)−V(s)
- 第一步恒等变换是上述定义, 第二步用了次模函数的不等式性质, 第三步是错位相消得到的结果, 第四步是基于函数 V V V的单调性;
- ④ Step4: V ( s ⃗ ) ≥ V ( s ⃗ ∗ ) − V ( s ⃗ ) V(\vec s)\ge V(\vec s^{*})-V(\vec s) V(s)≥V(s∗)−V(s), 推导出POA = V ( s ⃗ ) V ( s ⃗ ∗ ) ≥ 1 2 =\frac{V(\vec s)}{V(\vec s^{*})}\ge\frac{1}{2} =V(s∗)V(s)≥21
- 三个关键性质(证明中主要用到这三个性质):
-
A Smooth Games 光滑游戏 Slide P.117
- 定义:
- ① 称一个cost minimization game是一个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的(
μ
<
1
\mu\lt 1
μ<1), 若
∀
s
⃗
,
s
⃗
∗
\forall \vec s, \vec s^{*}
∀s,s∗满足
∑
i
=
1
K
c
i
(
s
i
∗
,
s
⃗
−
i
)
≤
λ
⋅
c
o
s
t
(
s
⃗
∗
)
+
μ
⋅
c
o
s
t
(
s
⃗
)
\sum_{i=1}^{K}c_i(s_i^{*},\vec s_{-i})\le \lambda\cdot {\rm cost}(\vec s^{*})+\mu\cdot {\rm cost}(\vec s)
i=1∑Kci(si∗,s−i)≤λ⋅cost(s∗)+μ⋅cost(s)
- 其中目标函数 c o s t ( s ⃗ ) ≤ ∑ i = 1 K c i ( s ⃗ ) {\rm cost}(\vec s)\le \sum_{i=1}^{K}c_i(\vec s) cost(s)≤∑i=1Kci(s)对 ∀ s ⃗ \forall \vec s ∀s成立;
- ② 称一个payoff-maximization游戏是
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth, 若对于
∀
s
⃗
,
s
⃗
∗
\forall \vec s, \vec s^{*}
∀s,s∗, 满足
∑
i
=
1
K
π
i
(
s
i
∗
,
s
⃗
−
i
)
≥
λ
⋅
V
(
s
⃗
∗
)
−
μ
⋅
V
(
s
⃗
)
\sum_{i=1}^{K}\pi_i(s_i^{*},\vec s_{-i})\ge \lambda\cdot V(\vec s^{*})-\mu\cdot V(\vec s)
i=1∑Kπi(si∗,s−i)≥λ⋅V(s∗)−μ⋅V(s)
- 这里的 V ( ⋅ ) V(\cdot) V(⋅)是满足对 ∀ s ⃗ \forall \vec s ∀s成立 V ( s ⃗ ) ≥ ∑ i = 1 K π i ( s ⃗ ) V(\vec s)\ge \sum_{i=1}^{K}\pi_i(\vec s) V(s)≥∑i=1Kπi(s)的目标函数;
- 一些例子:
- selfish routing atomic 是 ( 5 3 , 1 3 ) (\frac{5}{3},\frac{1}{3}) (35,31)- s m o o t h \rm smooth smooth的
- location game是(1,1) − - −\rm smooth$的
- PNE, MNE, CE, CCE的POA是依次递增的;
- ① 称一个cost minimization game是一个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的(
μ
<
1
\mu\lt 1
μ<1), 若
∀
s
⃗
,
s
⃗
∗
\forall \vec s, \vec s^{*}
∀s,s∗满足
∑
i
=
1
K
c
i
(
s
i
∗
,
s
⃗
−
i
)
≤
λ
⋅
c
o
s
t
(
s
⃗
∗
)
+
μ
⋅
c
o
s
t
(
s
⃗
)
\sum_{i=1}^{K}c_i(s_i^{*},\vec s_{-i})\le \lambda\cdot {\rm cost}(\vec s^{*})+\mu\cdot {\rm cost}(\vec s)
i=1∑Kci(si∗,s−i)≤λ⋅cost(s∗)+μ⋅cost(s)
- 回顾CCE的定义, 有如下定理成立:
- 定理: 在每个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的cost minimization game中, 有CCE的POA
≤
λ
1
−
μ
\le \frac{\lambda}{1-\mu}
≤1−μλ, for payoff-max, 则还有CCE的POA
≥
λ
1
+
μ
\ge \frac{\lambda}{1+\mu}
≥1+μλ
- 证明: Slide P.119
- 令 σ \sigma σ是一个 ( λ , μ ) (\lambda,\mu) (λ,μ)- s m o o t h \rm smooth smooth游戏的CCE, 则有 E s ⃗ ∼ σ [ c o s t ( s ⃗ ) ] ≤ E s ⃗ ∼ σ [ ∑ i = 1 K c i ( s ⃗ ) ] = ∑ i = 1 K E s ⃗ ∼ σ [ c i ( s ⃗ ) ] ≤ ∑ i = 1 K E s ⃗ ∼ σ [ c i ( s i ∗ , s ⃗ − i ) ] = E s ⃗ ∼ σ [ ∑ i = 1 K c i ( s i ∗ , s ⃗ − i ) ] ≤ E s ⃗ ∼ σ [ λ ⋅ c o s t ( s ⃗ ∗ ) + μ ⋅ c o s t ( s ⃗ ) ] = λ ⋅ c o s t ( s ⃗ ∗ ) + μ ⋅ E s ⃗ ∼ σ [ c o s t ( s ⃗ ) ] E_{\vec s\sim \sigma}[{\rm cost}(\vec s)]\le E_{\vec s\sim \sigma}[\sum_{i=1}^{K}c_i(\vec s)]\\=\sum_{i=1}^{K}E_{\vec s\sim \sigma}[c_i(\vec s)]\\\le\sum_{i=1}^{K}E_{\vec s\sim \sigma}[c_i(s_i^{*},\vec s_{-i})]\\=E_{\vec s\sim \sigma}[\sum_{i=1}^{K}c_i(s_i^{*},\vec s_{-i})]\\\le E_{\vec s\sim \sigma}[\lambda\cdot {\rm cost}(\vec s^{*})+\mu\cdot {\rm cost}(\vec s)]\\=\lambda\cdot {\rm cost}(\vec s^{*})+\mu\cdot E_{\vec s\sim \sigma}[{\rm cost}(\vec s)] Es∼σ[cost(s)]≤Es∼σ[i=1∑Kci(s)]=i=1∑KEs∼σ[ci(s)]≤i=1∑KEs∼σ[ci(si∗,s−i)]=Es∼σ[i=1∑Kci(si∗,s−i)]≤Es∼σ[λ⋅cost(s∗)+μ⋅cost(s)]=λ⋅cost(s∗)+μ⋅Es∼σ[cost(s)]
- 其中第一行 ≤ \le ≤号是来自目标函数的假设;
- 二四六行的恒等式是期望的线性性质得到;
- 第三行 ≤ \le ≤号是来自CCE的定义;
- 第五行 ≤ \le ≤号是光滑游戏是 ( λ , μ ) (\lambda,\mu) (λ,μ)- s m o o t h \rm smooth smooth的定义;
- 最终得到结论成立;
- 证明: Slide P.119
- 定理: 在每个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的cost minimization game中, 有CCE的POA
≤
λ
1
−
μ
\le \frac{\lambda}{1-\mu}
≤1−μλ, for payoff-max, 则还有CCE的POA
≥
λ
1
+
μ
\ge \frac{\lambda}{1+\mu}
≥1+μλ
- 定义:
-
ϵ \epsilon ϵ-PNE: Slide P.119-120
- 定义: s ⃗ \vec s s是一个 ϵ \epsilon ϵ-approx的PNE, 若 ∀ i , s i ′ ∈ S i \forall i, s_i^{\prime}\in S_i ∀i,si′∈Si满足 c i ( s ⃗ ) ≤ ( 1 + ϵ ) ⋅ c i ( s i ′ , s ⃗ − i ) c_i(\vec s)\le (1+\epsilon)\cdot c_i(s_i^{\prime},\vec s_{-i}) ci(s)≤(1+ϵ)⋅ci(si′,s−i)
- 定理: 对于每个 ( λ , μ ) (\lambda,\mu) (λ,μ)- s m o o t h \rm smooth smooth的cost minimization game G G G, 每个 ϵ < 1 μ − 1 \epsilon\lt \frac{1}{\mu}-1 ϵ<μ1−1, 每个 G G G的 ϵ \epsilon ϵ-PNE, 则G的每个输出 s ⃗ ∗ \vec s^{*} s∗有 c ( s ⃗ ) ≤ ( 1 + ϵ ) λ 1 − μ ( 1 + ϵ ) ⋅ c ( s ⃗ ∗ ) c(\vec s)\le \frac{(1+\epsilon)\lambda}{1-\mu(1+\epsilon)}\cdot c(\vec s^{*}) c(s)≤1−μ(1+ϵ)(1+ϵ)λ⋅c(s∗)
Lecture X
- 问题提出:
- 能否达到均衡: can players reach an equilibrium ?
- 能否快速达到均衡: quick ?
- 如何达到均衡: how ?
- 重要性: justifies equilibrium analysis (like POA)
- 注意: 需要behaviorial model(dynamic), 但不一定在一个均衡上;
- Best-response dynamics (BRD) 算法:
- while
S
⃗
\vec S
S is not a PNE:
- pick a player i with a beneficial deviation s i ′ s_i^{\prime} si′
- let player i i i switch s i → s i ′ s_i\rightarrow s_i^{\prime} si→si′
- while
S
⃗
\vec S
S is not a PNE:
- BRD的本质就是每次调整一个人(注意并非所有人同时修改策略, 而是), 使得他出当前最优的状态, 不断调整每个人;
- 但是BRD未必收敛, 如猜拳游戏没有PNE(输者就会改变自己的出招, 然后对方就输了, 然后), 在BRD算法下每个人就会不断的循环出招;
- 定理: BRD算法如果收敛, 则一定收敛到PNE;
- 回顾:
-
a potential game(Lecture 9的第2点), admits a function Φ \Phi Φ, s.t. ∀ S ⃗ , ∀ i , ∀ s i ′ \forall \vec S, \forall i, \forall s_i^{\prime} ∀S,∀i,∀si′, Φ ( S ⃗ ) − Φ ( s i ′ , S ⃗ − i ) = C i ( S ⃗ ) − C i ( s i ′ , S ⃗ − i ) \Phi(\vec S)-\Phi(s_i^{\prime},\vec S_{-i})=C_i(\vec S)-C_i(s_i^{\prime},\vec S_{-i}) Φ(S)−Φ(si′,S−i)=Ci(S)−Ci(si′,S−i)
-
推论: 在potential game中一定会收敛到PNE, 因为成本是严格递减的;
-
Note: 收敛速度如何?
- 事实上可以构造出收敛过程中遍历了所有策略组合的情况, 如 n n n个人每人两种 2 2 2中策略就需要迭代 2 n 2^n 2n步;
-
第一种方法: 在多项式时间内收敛到一个 ϵ \epsilon ϵ-PNE;
-
ϵ
\epsilon
ϵ-BRD:
- 定义: 当存在一个player可以通过改变策略来减少它的成本 ≥ ( 1 − ϵ ) \ge(1-\epsilon) ≥(1−ϵ)factor(一个** ϵ \epsilon ϵ-move**), 令这样一个人进行策略修正;
- 这样就能让potential game收敛到一个 ϵ \epsilon ϵ-PNE;
- 定理: 考虑一个atomic selfish routing, 满足: Slide P.133
-
① common source and sink;
-
② α \alpha α-bound jump condition: ∀ e , ∀ x ≥ 1 \forall e, \forall x\ge 1 ∀e,∀x≥1, 有 C e ( x + 1 ) ∈ [ C e ( x ) , α ⋅ C e ( x ) ] C_e(x+1)\in[C_e(x),\alpha\cdot C_e(x)] Ce(x+1)∈[Ce(x),α⋅Ce(x)]
-
③ ϵ \epsilon ϵ-BRD;
-
④ Max-Gain dynamics [每次会去调整那个成本下降最多的player的策略, player with bigest absolute improvement moves];
-
则 ϵ \epsilon ϵ-BRD将在 O ( k ⋅ α ϵ log Φ ( S 0 ) Φ min ) O(\frac{k\cdot\alpha}{\epsilon}\log\frac{\Phi(S^{0})}{\Phi_{\min}}) O(ϵk⋅αlogΦminΦ(S0))
- k k k是玩家数量;
- S 0 S^{0} S0初始状态, Φ ( S 0 \Phi(S^{0} Φ(S0就是初始状态的potential;
- Φ min \Phi_{\min} Φmin是可能的最小的potential;
- 第④点在证明中并不显得很重要;
-
证明:
-
引理1: 在每一个 S ⃗ \vec S S中, max i C i ( S ⃗ ) ≥ Φ ( S ⃗ ) k \max_i C_i(\vec S)\ge\frac{\Phi(\vec S)}{k} maxiCi(S)≥kΦ(S) Slide P.134 引理3.3
- 证明: 回顾Lecture 9中第2点的Rosenthal’s Theorem] Slide P.104, 那张直方图中有三根柱子的面积和不超过包裹着它们的矩形面积:
- 证明: 回顾Lecture 9中第2点的Rosenthal’s Theorem] Slide P.104, 那张直方图中有三根柱子的面积和不超过包裹着它们的矩形面积:
-
引理2: 若player i i i is chosen in outcome S ⃗ \vec S S[s_i\rightarrow s_i^{\prime}], 则 ∀ j \forall j ∀j, 有 C i ( S ⃗ ) − C i ( s i ′ , S ⃗ − i ) ≥ ϵ α C j ( S ⃗ ) C_i(\vec S)-C_i(s_i^{\prime},\vec S_{-i})\ge \frac{\epsilon}{\alpha}C_j(\vec S) Ci(S)−Ci(si′,S−i)≥αϵCj(S) Slide P.135 引理3.4
- 证明: 固定玩家
j
j
j;
- ① 若 j j j在 S ⃗ \vec S S中也有一个 ϵ \epsilon ϵ-move, 则 C i ( S ⃗ ) − C i ( s i ′ , S ⃗ − i ) ≥ C j ( S ⃗ ) − c j ( s j ′ , S ⃗ − j ) ≥ ϵ ⋅ C j ( S ⃗ ) C_i(\vec S)-C_i(s_i^{\prime},\vec S_{-i})\ge C_j(\vec S)-c_j(s_j^{\prime},\vec S_{-j})\ge \epsilon\cdot C_j(\vec S) Ci(S)−Ci(si′,S−i)≥Cj(S)−cj(sj′,S−j)≥ϵ⋅Cj(S), 都不需要除以 α \alpha α, 结论更强;
- ② 若 j j j在 S ⃗ \vec S S没有一个 ϵ \epsilon ϵ-move, 有 C j ( s i ′ , S ⃗ − j ) ≥ ( 1 − ϵ ) ⋅ C j ( S ⃗ ) (1) C_j(s_i^{\prime},\vec S_{-j})\ge(1-\epsilon)\cdot C_j(\vec S)\tag{1} Cj(si′,S−j)≥(1−ϵ)⋅Cj(S)(1) C i ( s i ′ , S ⃗ − i ) ≤ ( 1 − ϵ ) ⋅ C i ( S ⃗ ) (2) C_i(s_i^{\prime},\vec S_{-i})\le(1-\epsilon)\cdot C_i(\vec S)\tag{2} Ci(si′,S−i)≤(1−ϵ)⋅Ci(S)(2)
- Note:
(
s
i
′
,
S
⃗
−
i
)
(s_i^{\prime},\vec S_{-i})
(si′,S−i)与
(
s
i
′
,
S
⃗
−
j
)
(s_i^{\prime},\vec S_{-j})
(si′,S−j)有
(
k
−
1
)
(k-1)
(k−1)条路径是相同的;
- 则每条边的负载最多会相差一个人;
- 由bound jump condition(定理中的第③个假设点)有: C j ( s i ′ , S ⃗ − j ) ≤ α ⋅ C i ( s i ′ , S ⃗ − i ) C_j(s_i^{\prime},\vec S_{-j})\le\alpha\cdot C_i(s_i^{\prime},\vec S_{-i}) Cj(si′,S−j)≤α⋅Ci(si′,S−i)
- 带入(1)(2)两个式子, 就可以把两个式子联系起来即可得到
C
i
(
S
⃗
)
−
C
i
(
s
i
′
,
S
⃗
−
i
)
≥
ϵ
α
C
j
(
S
⃗
)
C_i(\vec S)-C_i(s_i^{\prime},\vec S_{-i})\ge \frac{\epsilon}{\alpha}C_j(\vec S)
Ci(S)−Ci(si′,S−i)≥αϵCj(S)的结论;
- 这里要附加一个 C j ( S ⃗ ) ≤ α ⋅ C i ( S ⃗ ) C_j(\vec S)\le \alpha\cdot C_i(\vec S) Cj(S)≤α⋅Ci(S)
- 证明: 固定玩家
j
j
j;
-
定理的证明:
- 在任意迭代中, 当 i i i发生转移: s i → s i ′ s_i\rightarrow s_i^{\prime} si→si′有(两个 ≥ \ge ≥号依次由引理2和引理1得到): Δ Φ = C i ( S ⃗ ) − C i ( s i ′ , S ⃗ − i ) ≥ ϵ α ⋅ max j C j ( S ⃗ ) ≥ ϵ α ⋅ i k ⋅ Φ ( S ⃗ ) \Delta\Phi=C_i(\vec S)-C_i(s_i^{\prime},\vec S_{-i})\\\ge\frac{\epsilon}{\alpha}\cdot \max_jC_j(\vec S)\\\ge\frac{\epsilon}{\alpha}\cdot \frac{i}{k}\cdot\Phi(\vec S) ΔΦ=Ci(S)−Ci(si′,S−i)≥αϵ⋅jmaxCj(S)≥αϵ⋅ki⋅Φ(S)
- 于是在经过 l = O ( k ⋅ α ϵ log Φ ( S 0 ) Φ min ) l=O(\frac{k\cdot\alpha}{\epsilon}\log\frac{\Phi(S^{0})}{\Phi_{\min}}) l=O(ϵk⋅αlogΦminΦ(S0))步的 ϵ \epsilon ϵ-BRD迭代内, 算法结束(hat):
-
-
-
ϵ
\epsilon
ϵ-BRD:
-
第二种方法: reach low-cost outcome in ploy # of iterations
- 定理 Slide P.136 Thm 4.1: 考虑一个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的cost-min, 它的potential function满足
Φ
(
S
⃗
)
≤
c
o
s
t
(
S
⃗
)
\Phi(\vec S)\le {\rm cost}(\vec S)
Φ(S)≤cost(S), 令
S
0
,
S
1
,
.
.
.
,
S
T
S^{0},S^{1},...,S^{T}
S0,S1,...,ST是sequence generated by Max-Gain BRD, 令
S
∗
=
o
p
t
,
∀
γ
<
0
S^{*}={\rm opt},\forall \gamma\lt 0
S∗=opt,∀γ<0, 则除了有限多个的状态(数量为O(\frac{k}{(1-\mu)\gamma})\log\frac{\Phi(\vec S^{0})}{\Phi_{\min}}), 输出
s
⃗
t
\vec s^{t}
st都满足
c
o
s
t
(
s
t
)
≤
(
λ
1
−
μ
+
γ
)
⋅
c
o
s
t
(
s
∗
)
{\rm cost}(s^t)\le (\frac{\lambda}{1-\mu}+\gamma)\cdot {\rm cost}(s^{*})
cost(st)≤(1−μλ+γ)⋅cost(s∗)
- 证明:
- 记 s t s^t st是bad的, 若 c o s t ( s t ) > ( λ 1 − μ + γ ) c o s t ( s ∗ ) {\rm cost}(s^t)\gt (\frac{\lambda}{1-\mu}+\gamma){\rm cost(s^{*})} cost(st)>(1−μλ+γ)cost(s∗)
- 对于
S
⃗
\vec S
S,
c
o
s
t
(
s
⃗
S
)
=
∑
i
=
1
k
C
i
(
S
⃗
)
=
∑
i
=
1
k
(
C
i
(
s
i
∗
,
S
⃗
−
i
)
+
δ
i
(
S
⃗
)
)
≤
λ
c
o
s
t
(
s
∗
)
+
μ
c
o
s
t
(
S
⃗
)
+
∑
i
=
1
k
δ
i
(
S
⃗
0
)
{\rm cost}(\vec sS)=\sum_{i=1}^k C_i(\vec S)=\sum_{i=1}^k(C_i(s_i^*,\vec S_{-i})+\delta_i(\vec S))\le \lambda{\rm cost}(s^*)+\mu{\rm cost}(\vec S)+\sum_{i=1}^k\delta_i(\vec S0)
cost(sS)=∑i=1kCi(S)=∑i=1k(Ci(si∗,S−i)+δi(S))≤λcost(s∗)+μcost(S)+∑i=1kδi(S0)
- δ i ( S ⃗ ) = C i ( S ⃗ ) − C i ( s i ∗ ) − C i ( s i ∗ , S ⃗ − i ) \delta_i(\vec S)=C_i(\vec S)-C_i(s_i^*)-C_i(s_i^*,\vec S_{-i}) δi(S)=Ci(S)−Ci(si∗)−Ci(si∗,S−i)
- 所以 c o s t ( S ⃗ ) ≤ λ 1 − μ c o s t ( s ∗ ) + 1 1 − μ ∑ i = 1 k δ i ( S ⃗ ) {\rm cost}(\vec S)\le \frac{\lambda}{1-\mu}{\rm cost}(s^*)+\frac{1}{1-\mu}\sum_{i=1}^k\delta_i(\vec S) cost(S)≤1−μλcost(s∗)+1−μ1∑i=1kδi(S)
- 若
S
⃗
\vec S
S是bad的, 则
∑
i
=
1
k
δ
i
(
S
⃗
)
>
(
1
−
μ
)
⋅
γ
⋅
c
o
s
t
(
s
∗
)
\sum_{i=1}^k\delta_i(\vec S)\gt (1-\mu)\cdot \gamma\cdot {\rm cost}(s^*)
∑i=1kδi(S)>(1−μ)⋅γ⋅cost(s∗)
- 则存在 i i i使得 C i ( S ⃗ ) − C i ( S ∗ , S ⃗ − i ) = δ i ( S ⃗ ) ≥ ( 1 − μ ) γ k c o s t ( s ∗ ) ≥ ( 1 − μ ) γ k Φ ( s ∗ ) C_i(\vec S)-C_i(S^*,\vec S_{-i})=\delta_i(\vec S)\ge\frac{(1-\mu)\gamma}{k}{\rm cost}(s^*)\ge\frac{(1-\mu)\gamma}{k}\Phi(s^*) Ci(S)−Ci(S∗,S−i)=δi(S)≥k(1−μ)γcost(s∗)≥k(1−μ)γΦ(s∗)
- 下一轮减少的potential将 ≥ ( 1 − μ ) γ k Φ \ge \frac{(1-\mu)\gamma}{k}\Phi ≥k(1−μ)γΦ
- 则 ( 1 − ( 1 − μ ) γ k ) l (1-\frac{(1-\mu)\gamma}{k})^l (1−k(1−μ)γ)l factor decrease after l l l bad iterations;
- 证明:
- 定理 Slide P.136 Thm 4.1: 考虑一个
(
λ
,
μ
)
(\lambda,\mu)
(λ,μ)-
s
m
o
o
t
h
\rm smooth
smooth的cost-min, 它的potential function满足
Φ
(
S
⃗
)
≤
c
o
s
t
(
S
⃗
)
\Phi(\vec S)\le {\rm cost}(\vec S)
Φ(S)≤cost(S), 令
S
0
,
S
1
,
.
.
.
,
S
T
S^{0},S^{1},...,S^{T}
S0,S1,...,ST是sequence generated by Max-Gain BRD, 令
S
∗
=
o
p
t
,
∀
γ
<
0
S^{*}={\rm opt},\forall \gamma\lt 0
S∗=opt,∀γ<0, 则除了有限多个的状态(数量为O(\frac{k}{(1-\mu)\gamma})\log\frac{\Phi(\vec S^{0})}{\Phi_{\min}}), 输出
s
⃗
t
\vec s^{t}
st都满足
c
o
s
t
(
s
t
)
≤
(
λ
1
−
μ
+
γ
)
⋅
c
o
s
t
(
s
∗
)
{\rm cost}(s^t)\le (\frac{\lambda}{1-\mu}+\gamma)\cdot {\rm cost}(s^{*})
cost(st)≤(1−μλ+γ)⋅cost(s∗)
- multiplicative weights & non-regret dynamics
- 反悔最小化: Regret Minimization (Single Player)
- Let A A A is an action set, n = ∣ A ∣ n=|A| n=∣A∣
- At time
t
=
1
,
2
,
.
.
.
,
T
t=1,2,...,T
t=1,2,...,T,
T
T
T已知
- ① 你挑选一个混合策略: p t p^t pt over A A A
- ② 你的对手方选择一个cost vector c t c^t ct: A → [ 0 , 1 ] A\rightarrow[0,1] A→[0,1]
- ③ choose a t ∼ p t a^t\sim p^t at∼pt, 你的cost为 c t ( a t ) c^t(a^t) ct(at)
- 显然这对于你很不公平, 但是我们依然期望找到最优策略;
- 问题: what guarantee can we hope for ?
- ① can’t compare to best action sequence in hindsight(开天眼的情况下, 预知未来):
∑
t
min
a
∈
A
c
t
(
a
)
\sum_t \min_{a\in A}c^t(a)
∑tmina∈Act(a)
- 对手方可以enforce o p t = 0 {\rm opt}=0 opt=0 but your cost ≥ T 2 \ge \frac{T}{2} ≥2T
- 关键点: compare to best fixed action in hidsight:
1
T
[
∑
t
=
1
T
c
t
(
a
t
)
−
min
a
∈
A
∑
t
=
1
T
c
t
(
a
)
]
\frac{1}{T}[\sum_{t=1}^Tc^t(a^t)-\min_{a\in A}\sum_{t=1}^Tc^t(a^)]
T1[t=1∑Tct(at)−a∈Amint=1∑Tct(a)]
- 这就是你的regret值, 可能是负数, 即不会后悔;
- 前一项是你的cost, 后一项是best fixed action的cost, 两者一减就是regret的量化;
- 模拟场景, 你要买股票, 你有很多个专家给你提供建议, 你可以给出一种听从不同专家的概率, 使得最终的混合策略好于任何一个专家的建议, 你并不知道股票即将的涨跌情况, 这个结论事实上并不平凡;
- ② deterministic algorithms doesn’t work, 确定性算法一定不能起效(如你去告诉对手方我一定走哪条路, 这肯定是不行的), 你的对手方总是可以强制你的cost等于
T
T
T, 但是最优的情况下cost会
≤
T
n
\le \frac{T}{n}
≤nT
- 这里假设的是有 n n n条路, 你要决定去走哪条路, 我可以混合策略平均地走每条路, 成本将会比我确定的告诉对手方我走哪条路要低得多;
- ③ 事实上你不可能做得比
Ω
(
log
n
T
)
\Omega(\sqrt{\frac{\log n}{T}})
Ω(Tlogn)更好的期望regret;
- 证明思路[ n = 2 n=2 n=2]: 对手方随机化cost vector c t = ( 1 , 0 ) ⊤ c^t=(1,0)^{\top} ct=(1,0)⊤或 ( 0 , 1 ) ⊤ (0,1)^{\top} (0,1)⊤
- expected alg cost = T 2 \frac{T}{2} 2T
- expected best action cost = T 2 − Θ ( T ) \frac{T}{2}-\Theta(\sqrt{T}) 2T−Θ(T)
- 两者一减除以 T T T就得到了这个上界;
- ① can’t compare to best action sequence in hindsight(开天眼的情况下, 预知未来):
∑
t
min
a
∈
A
c
t
(
a
)
\sum_t \min_{a\in A}c^t(a)
∑tmina∈Act(a)
- 定义: 一个(randomized, 随机化的)算法是no-regret的, 若 ∀ c 1 , c 2 , . . . , c T \forall c^1,c^2,...,c^T ∀c1,c2,...,cT有 E [ r e g r e t ] → 0 {\mathbb E}[{\rm regret}]\rightarrow 0 E[regret]→0当 T → ∞ T\rightarrow \infty T→∞
- 定理 Slide P.142 Thm 2.1: 存在一个简单的算法, 它的期望regret为
O
(
log
n
T
)
O(\sqrt{\frac{\log n}{T}})
O(Tlogn)
- multiplicative weights:
- 维护每个action的weight;
- 正比于weight来出策略;
- 再不断去更新;
- 算法步骤: Slide P.143
- ① 初始化 w 1 ( a ) = 1 ∀ a ∈ A w^1(a)=1\quad\forall a\in A w1(a)=1∀a∈A
- ② For i=1,2,…,
T
T
T:
- choose a^t with probablity proportional to w^t(a)'s 即
p
t
(
a
)
=
w
t
(
a
)
∑
a
′
w
t
(
a
′
)
p^t(a)=\frac{w^t(a)}{\sum_{a^{\prime}}w^t(a^{\prime})}
pt(a)=∑a′wt(a′)wt(a)
- 我告诉对手方我的策略是选 p t p^t pt, 然后对手方给出一个 c t c^t ct;
- 下一轮我能知道该轮的情况, 但是无法知道下一轮的情况;
- 我们的比较对象是事后的固定策略, 所以需要一定程度的学习历史;
- 给定
c
t
c^t
ct, 减少weights:
w
t
+
1
(
a
)
=
w
t
(
a
)
⋅
(
1
−
ϵ
)
c
t
(
a
)
∀
a
∈
A
w^{t+1}(a)=w^t(a)\cdot(1-\epsilon)^{c^t(a)}\quad\forall a\in A
wt+1(a)=wt(a)⋅(1−ϵ)ct(a)∀a∈A
- ϵ ∈ ( 0 , 1 2 ] \epsilon\in(0,\frac{1}{2}] ϵ∈(0,21], choose later;
- ϵ \epsilon ϵ越小则更倾向于学习历史;
- c t ( a ) = 0 c^t(a)=0 ct(a)=0时相当于保持不变, c t ( a ) = 1 c^t(a)=1 ct(a)=1就会缩水 ( 1 − ϵ ) (1-\epsilon) (1−ϵ)
- choose a^t with probablity proportional to w^t(a)'s 即
p
t
(
a
)
=
w
t
(
a
)
∑
a
′
w
t
(
a
′
)
p^t(a)=\frac{w^t(a)}{\sum_{a^{\prime}}w^t(a^{\prime})}
pt(a)=∑a′wt(a′)wt(a)
- 分析Slide P.143-145: 令
Γ
t
=
∑
a
∈
A
w
t
(
a
)
\Gamma^t=\sum_{a\in A}w^t(a)
Γt=∑a∈Awt(a)
- ① 存在good action
a
∗
a^*
a∗, then
Γ
t
\Gamma^t
Γt就会很大;
- 令 O P T = ∑ t = 1 T c t ( a ∗ ) {\rm OPT}=\sum_{t=1}^Tc^t(a^*) OPT=∑t=1Tct(a∗), ( min a ∈ A ∑ t = 1 T c t ( a ) \min_{a\in A}\sum_{t=1}^Tc^t(a) mina∈A∑t=1Tct(a)), 则 Γ T + 1 ≥ w T + 1 ( a ∗ ) = w 1 ( a ∗ ) ∏ t ( 1 − ϵ ) c t ( a t ) = ( 1 − ϵ ) O P T \Gamma^{T+1}\ge w^{T+1}(a^*)=w^1(a^*)\prod_{t}(1-\epsilon)^{c^t(a^t)}=(1-\epsilon)^{\rm OPT} ΓT+1≥wT+1(a∗)=w1(a∗)t∏(1−ϵ)ct(at)=(1−ϵ)OPT
- ② 我们说明
Γ
T
\Gamma^T
ΓT是以指数速度下降(decrease exponentially fast in exp cost of MW):
- 原因: 期望cost of MW at step
t
t
t为
∑
a
Pr
[
p
i
c
k
a
]
c
t
(
a
)
=
∑
a
w
t
(
a
)
Γ
t
⋅
c
t
(
a
)
\sum_a\Pr[{\rm pick\space a}]c^t(a)=\sum_{a}\frac{w^t(a)}{\Gamma^t}\cdot c^t(a)
∑aPr[pick a]ct(a)=∑aΓtwt(a)⋅ct(a), 则有递归
Γ
t
+
1
=
∑
a
w
t
+
1
(
a
)
=
∑
a
w
t
(
a
)
(
1
−
ϵ
)
c
t
(
a
)
≤
∑
a
w
t
(
a
)
(
1
−
ϵ
⋅
c
t
(
a
)
)
=
Γ
t
(
1
−
ϵ
⋅
∑
a
w
t
(
a
)
Γ
t
⋅
c
t
(
a
)
)
=
Γ
5
(
1
−
ϵ
⋅
γ
t
)
\Gamma^{t+1}=\sum_aw^{t+1}(a)=\sum_{a}w^t(a)(1-\epsilon)^{c^t(a)}\\\le \sum_aw^t(a)(1-\epsilon\cdot c^t(a))\\=\Gamma^t(1-\epsilon\cdot\sum_{a}\frac{w^t(a)}{\Gamma^t}\cdot c^t(a))\\=\Gamma^5(1-\epsilon\cdot\gamma^t)
Γt+1=a∑wt+1(a)=a∑wt(a)(1−ϵ)ct(a)≤a∑wt(a)(1−ϵ⋅ct(a))=Γt(1−ϵ⋅a∑Γtwt(a)⋅ct(a))=Γ5(1−ϵ⋅γt)
- 其中 γ t = \gamma^t= γt=exp cost of MW at step t t t
- 原因: 期望cost of MW at step
t
t
t为
∑
a
Pr
[
p
i
c
k
a
]
c
t
(
a
)
=
∑
a
w
t
(
a
)
Γ
t
⋅
c
t
(
a
)
\sum_a\Pr[{\rm pick\space a}]c^t(a)=\sum_{a}\frac{w^t(a)}{\Gamma^t}\cdot c^t(a)
∑aPr[pick a]ct(a)=∑aΓtwt(a)⋅ct(a), 则有递归
Γ
t
+
1
=
∑
a
w
t
+
1
(
a
)
=
∑
a
w
t
(
a
)
(
1
−
ϵ
)
c
t
(
a
)
≤
∑
a
w
t
(
a
)
(
1
−
ϵ
⋅
c
t
(
a
)
)
=
Γ
t
(
1
−
ϵ
⋅
∑
a
w
t
(
a
)
Γ
t
⋅
c
t
(
a
)
)
=
Γ
5
(
1
−
ϵ
⋅
γ
t
)
\Gamma^{t+1}=\sum_aw^{t+1}(a)=\sum_{a}w^t(a)(1-\epsilon)^{c^t(a)}\\\le \sum_aw^t(a)(1-\epsilon\cdot c^t(a))\\=\Gamma^t(1-\epsilon\cdot\sum_{a}\frac{w^t(a)}{\Gamma^t}\cdot c^t(a))\\=\Gamma^5(1-\epsilon\cdot\gamma^t)
Γt+1=a∑wt+1(a)=a∑wt(a)(1−ϵ)ct(a)≤a∑wt(a)(1−ϵ⋅ct(a))=Γt(1−ϵ⋅a∑Γtwt(a)⋅ct(a))=Γ5(1−ϵ⋅γt)
- 由①②两个结论, 我们得到 ( 1 − ϵ ) ≤ Γ T + 1 ≤ Γ 1 ⋅ ∏ i = 1 T ( 1 − ϵ γ t ) = n ∏ i = 1 T ( 1 − ϵ γ t ) (1-\epsilon)\le \Gamma^{T+1}\le \Gamma^1\cdot\prod_{i=1}^{T}(1-\epsilon\gamma^t)=n\prod_{i=1}^T(1-\epsilon\gamma^t) (1−ϵ)≤ΓT+1≤Γ1⋅∏i=1T(1−ϵγt)=n∏i=1T(1−ϵγt)
- 泰勒展开:
- O P T ⋅ log ( 1 − ϵ ) ≤ log ( n ) + ∑ t = 1 T log ( 1 − ϵ γ t ) {\rm OPT}\cdot \log(1-\epsilon)\le \log(n)+\sum_{t=1}^T\log(1-\epsilon\gamma^t) OPT⋅log(1−ϵ)≤log(n)+∑t=1Tlog(1−ϵγt)
- O P T ⋅ ( − ϵ − ϵ 2 ) ≤ log ( n ) + ∑ t = 1 T log ( − ϵ γ t ) {\rm OPT}\cdot (-\epsilon-\epsilon^2)\le \log(n)+\sum_{t=1}^T\log(-\epsilon\gamma^t) OPT⋅(−ϵ−ϵ2)≤log(n)+∑t=1Tlog(−ϵγt)
- 所以: ∑ t = 1 T γ t ≤ O P T ⋅ ( 1 + ϵ ) + log ( n ) ϵ ≤ O P T + ϵ T + log ( n ) ϵ \sum_{t=1}^T\gamma^t\le {\rm OPT}\cdot (1+\epsilon)+\frac{\log(n)}{\epsilon}\le {\rm OPT}+\epsilon T+\frac{\log(n)}{\epsilon} ∑t=1Tγt≤OPT⋅(1+ϵ)+ϵlog(n)≤OPT+ϵT+ϵlog(n)
- ① 存在good action
a
∗
a^*
a∗, then
Γ
t
\Gamma^t
Γt就会很大;
- multiplicative weights:
- No-regret dynamics (NRD)
- At time t = 1 , 2 , . . . , T t=1,2,...,T t=1,2,...,T
- ① each player i i i independently choose strategy s_i^t using a no-regret algorithm A i A_i Ai
- ② each player i i i receives cost vector C i ( ⋅ , S ⃗ − i t ) C_i(\cdot,\vec S_{-i}^t) Ci(⋅,S−it)
- 定理 Slide P.146: 令 S 1 , S 2 . . . , S T S^1,S^2...,S^T S1,S2...,ST是根据NRD生成出来的, 且 σ = \sigma= σ=unit distribution over the multiset, 则 σ \sigma σ is an approximate coarse correlated eq.(CCE)
- 回顾上一讲中的CCE, 这是一个非常容易计算的均衡:
- 定义[CCE]:
- 称在 S 1 × S 2 . . . × S K S^1× S^2 ... × S^K S1×S2...×SK上的一个分布 σ \sigma σ是coarse correlated equilibrium(粗糙的相互均衡);
- 若 ∀ i , ∀ s i ′ ∈ S i \forall i, \forall s_i^{\prime}\in S_i ∀i,∀si′∈Si, 有 E s ⃗ ∼ σ [ c i ( s ⃗ ) ] ≤ E s ⃗ ∼ σ [ c i ( s i ′ , s ⃗ − i ) ] E_{\vec s\sim \sigma}[c_i(\vec s)]\le E_{\vec s\sim \sigma}[c_i(s_i^{\prime},\vec s_{-i})] Es∼σ[ci(s)]≤Es∼σ[ci(si′,s−i)]
- 定义[CCE]:
- 定理证明:
- 若player i i i有一个regret R i R_i Ri: R i = 1 T [ ∑ t = 1 T C i ( S t ) − min s i ∗ ∈ A i 7 s u m t = 1 T C i ( s i ′ , S ⃗ − i t ) ] R_i=\frac{1}{T}[\sum_{t=1}^TC_i(S^t)-\min_{s_i^*\in A_i}7sum_{t=1}^TC_i(s_i^\prime,\vec S_{-i}^t)] Ri=T1[t=1∑TCi(St)−si∗∈Aimin7sumt=1TCi(si′,S−it)]
END