Optimal rewards in contests（博弈论+机制设计）论文阅读笔记

最新推荐文章于 2025-05-21 09:54:08 发布

AgentSmart

最新推荐文章于 2025-05-21 09:54:08 发布

阅读量670

点赞数

分类专栏：算法学习博弈论机器学习文章标签：策略模式人工智能机制设计

本文链接：https://blog.csdn.net/dzc_go/article/details/123238223

版权

机器学习同时被 3 个专栏收录

37 篇文章

订阅专栏

博弈论

24 篇文章

订阅专栏

算法学习

23 篇文章

订阅专栏

Optimal rewards in contests 论文阅读笔记

一、基本信息

题目：竞赛中的最优奖励
作者：Chen Cohen, Todd R.Kaplan, Aner Sela

二、文章摘要

以下内容取自原文摘要部分：
我们在不完全信息的设定下研究带有关乎于分数奖励的全支付竞赛。参赛者获胜的估值不仅仅与他的类型相关，还与设计者选择的独立于分数的奖励相关。我们针对设计者分析当他的目标函数要么是分数总和要么是最高分数时，最优的奖励如何选择。我们发现在特定条件下，最优奖励可能是负值甚至随着分数而递减；然而，我们并没有发现任何多奖励的优势。
我的总结：本文关注于竞赛中最优奖励的设计，该竞赛针对参赛者的类型信息是不完全的，并且设计者设计的奖励与参赛者付出的努力相关。参赛者已知自己类型与公共的类型分布，选择分数最大化胜利概率，从而产生均衡。设计者由均衡努力反推分布，结合分布设计最优奖励函数。使用该方法分析了total-mult、total-add、highest-mult、highest-add、多奖项竞赛等情况。核心结论总结如下图：
最有趣的发现在于：有违于常理，在某些情况下， $R^{'} (x) < 0$ ，也就是说努力程度越大，获得的奖励却越少。

三、背景介绍

本文关注于一类竞赛，其中奖励函数（获奖概率、胜利估值）随着努力的变化而变化，也就是说参赛者努力的程度影响了获奖概率以及胜利估值。本文对于参赛者的类型信息是不完全的。考虑两大设计者目标函数，一是努力总和，二是最大努力。参赛者的类型也考虑为两种。本文发现参赛者的均衡收益以及最优奖项明显取决于设计者的目标函数以及参赛者的努力表现。除此之外本文还分析了多奖项对于不同目标函数带来的影响。

四、本文模型

考虑一个 $n$ 位参赛者参与且奖项与努力有关地全支付竞赛。每位参赛者的类型都独立同分布于 $[\underline{\theta},\bar{\theta}]$ ，累计分布函数为 $F$ 且为公共已知信息。代价函数为 $c(\theta_i,x_i)$ 随着 $\theta$ 而递减，随着 $x_i$ 而递增，且 $c(\theta,0)=0,lim_{x\rightarrow \infty}c(\theta,x)=\infty$ 。
拥有最高努力的参赛者 $i$ 获得奖励 $R(x_i)$ ，其胜利效用为 $V(\theta,R(x_i))$ 。换句话说，获胜者获得的奖励与其努力程度相关，胜利效用不单单与奖励相关，还与其类型相关。考虑胜利效用的两种形式：mult形式： $V(\theta,R(x_i))=\theta \cdot R(x_i)$ ，代表了胜利的金钱效用与类型有关，比如科研竞赛；add形式： $V(\theta,R(x_i))=\theta + R(x_i)$ ，代表有独立于金钱效用的一部分胜利效用，比如名望、地位等与金钱无关，比如体育竞赛。
设计者的估值也有两种形式：total形式：设计者效用等于努力总和减去期望奖励代价；highest形式：设计者效用等于最高努力值减去期望奖励代价。这两种形式各有应用场景。本文模型环境2-2共分为以下四种：total-mult、total-add、highest-mult、highest-add。
竞赛中决策的时机如下：设计者选择奖励函数（选择奖项、以及奖项分配规则）、参赛者得知自己的类型并做出决策。
类型为 $\theta$ 的参赛者均衡期望收益为 $\pi(\theta)$ ，其贝叶斯均衡的策略选择为 $x(\theta)$ ，其反函数 $\theta(x)$ 代表均衡策略为 $x$ 的对应类型，该函数是严格递增连续的，也就是说均衡策略努力更高的参赛者其类型也更高。故期望收益为：
$\pi(\theta)\equiv max_{x}F(\theta(x))^{n-1}\cdot V(\theta,R(x))-c(\theta,x)$
Proposition 1提出：每个均衡策略 $x(\theta)$ 都由下式解出：
$F(\theta)^{n-1}V(\theta,R(x,\theta))-c(\theta,x(\theta))=\int_{\underline{\theta}}^{\theta}[F(\tilde{\theta})^{n-1}V_{\theta}(\tilde{\theta},R(x(\tilde{\theta})))-c_{\theta}(\tilde{\theta},x(\tilde{\theta}))]d\tilde{\theta}$
上式是所用竞赛的一般形式。将 $V$ 与 $c$ 特殊化后便可以得到全支付竞赛或者是二价竞赛。为了最大化设计者的效用，设计者需要选择目标函数。之后设计者对于奖项函数的选择，直接影响了参赛者的均衡表现。因此可以根据均衡表现来反推奖励函数。比如努力总和对应的均衡表现反推得到当前条件下最优的奖励函数。
当对于所有 $x$ 来说 $c(\theta,x)=0,V(\theta,R(x))=\theta-x$ ，我们得到了一个一价拍卖，其对应的均衡策略求解公式为：
$F(\theta)^{n-1}(\theta-x(\theta))=\int_{\underline{\theta}}^{\theta}F(\tilde{\theta})^{n-1}d\tilde{\theta}$
当对于所有 $\theta$ 来说 $c(\theta,x)=x,V(\theta,R(x))=\theta$ ，我们得到了一个标准的全支付拍卖，其对应的均衡策略求解公式为：
$F(\theta)^{n-1}\theta-x(\theta)=\int_{\underline{\theta}}^{\theta}F(\tilde{\theta})^{n-1}d\tilde{\theta}$

五、核心结论

5.1 最大化努力总和

最大化努力总和的设定下，设计者的期望效用为：
$n\int_{\underline{\theta}}^{\bar{\theta}}x(\theta)dF-\int_{\underline{\theta}}^{\bar{\theta}}R(x(\theta))dF^n$

5.1.1 total-mult

Proposition 2提出：根据(7)可求得类型 $\theta$ 对应的均衡策略 $x(\theta)$ ，根据(6)可由 $x(\theta)$ 求得该均衡下的最优奖项 $R (x)$ 。（ $\hat{c}(\theta,x)=c(\theta,x)/\theta$ ）
$\hat { c } ( \theta ( x ) , x ) - \int _ { \theta } ^ { x }\hat{c_{\theta}} ( \theta{(\tilde { x }} )) , \tilde { x } ) d\theta(\tilde{x})) / F ( \theta (x ) ) ^ { n - 1 } ......(6)\\ 1 + \hat { c } _ { \theta x } ( \theta , x ( \theta ) ) \frac { 1 - F ( \theta ) } { f ( \theta ) } = \hat { c_x } ( \theta , x ( \theta ) )......(7)\\$
Proposition 3提出：根据Proposition 2，我们得到了一些关于参赛者均衡努力以及环境下最优奖项的一些性质：
1.均衡努力与参赛者个数无关。
2.所有参赛者都参与到了竞赛中。
3.最优奖励总是正值的。
4.对于足够大的参赛者个数 $n$ ，最优奖项是递减的。
在total-mult环境下，根据上述公式求得的与努力相关的奖励便是最优机制。

5.1.2 total-add

Proposition 4提出：根据(11)可求得类型 $\theta$ 对应的均衡策略 $x(\theta)$ ，根据(10)可由 $x(\theta)$ 求得该均衡下的最优奖项 $R (x)$ 。（ $\hat{c}(\theta,x)=c(\theta,x)/\theta$ ）
$\theta(x ) , x ) + \int _ { \theta^* } ^ { \theta(x) } \lbrack F ( \theta ) ^ { n - 1 } - c _ { \theta } ( \theta , x ( \theta ) ) ]d \theta ) / F ( \theta(x) ) ^ { n-1 } - \theta ( x )......(10)\\ 1 + c _ { \theta x } ( \theta , x ( \theta ) ) \frac { 1 - F ( \theta ) } { f ( \theta ) } = c _ { x } ( \theta , x ( \theta ) )......(11)$
Proposition 5提出：根据Proposition 4，我们得到了一些关于参赛者均衡努力以及环境下最优奖项的一些性质：
1.均衡努力与参赛者个数无关。
2.部分参赛者可能不会选择参与到竞赛中。
3.最优奖励不总是正值的。
4.对于足够大的参赛者个数 $n$ ，最优奖项是递减的。
在total-add环境下，根据上述公式求得的与努力相关的奖励在部分环境下是最优机制。

5.2 最大化最大努力

最大化最大努力的设定下，设计者的期望效用为：
$\int_{\underline{\theta}}^{\bar{\theta}}[x(\theta)-R(x(\theta))]dF^n$

5.2.1 highest-mult

Proposition 6提出：根据(14)可求得类型 $\theta$ 对应的均衡策略 $x(\theta)$ ，根据(13)可由 $x(\theta)$ 求得该均衡下的最优奖项 $R (x)$ 。（ $\hat{c}(\theta,x)=c(\theta,x)/\theta$ ）
$\hat { c } ( \theta ( x ) , x ) - \int _ { \theta } ^ { x }\hat{c_{\theta}} ( \theta{(\tilde { x }} )) , \tilde { x } ) d\theta(\tilde{x})) / F ( \theta (x ) ) ^ { n - 1 } ......(13)\\ F ( \theta ) ^ { n - 1 } + \hat { c } _ { \theta x } ( \theta , x ( \theta ) ) \frac { 1 - F ( \theta ) } { f ( \theta ) } = \hat { c_x } ( \theta , x ( \theta ) )......(14)$
Proposition 7提出：根据Proposition 6，我们得到了一些关于参赛者均衡努力以及环境下最优奖项的一些性质：
1.均衡努力与参赛者个数有关。
2.所有参赛者都参与到竞赛中。
3.最优奖励总是正值的。
4.对于任意的参赛者个数 $n$ ，最优奖项可能是递增的。

5.2.2 highest-add

Proposition 8提出：根据(16)可求得类型 $\theta$ 对应的均衡策略 $x(\theta)$ ，根据(15)可由 $x(\theta)$ 求得该均衡下的最优奖项 $R (x)$ 。（ $\hat{c}(\theta,x)=c(\theta,x)/\theta$ ）
$\theta(x ) , x ) + \int _ { \theta^* } ^ { \theta(x) } \lbrack F ( \theta ) ^ { n - 1 } - c _ { \theta } ( \theta(\tilde{x}) , \tilde{x} ( \theta ) ) ]d \theta ) / F ( \theta(x) ) ^ { n-1 } - \theta ( x )......(15)\\ F ( \theta ) ^ { n - 1 } + c _ { \theta x } ( \theta , x ( \theta ) ) \frac { 1 - F ( \theta ) } { f ( \theta ) } = c_x ( \theta , x ( \theta ) )......(16)$
Proposition 9提出：根据Proposition 8，我们得到了一些关于参赛者均衡努力以及环境下最优奖项的一些性质：
1.均衡努力与参赛者个数有关。
2.部分参赛者可能不会参与到竞赛中。
3.最优奖励并不总是正值的。
4.对于任意的参赛者个数 $n$ ，最优奖项可能是递增的。

5.3 多奖励的影响

本章节关注于多个与努力相关的奖项带来的影响，最高努力获得 $R_1(x)$ ，第二高努力获得 $R_2(x)$ …
Proposition 10表明：对于任何多奖项竞赛来说，都存在一个单奖项竞赛，在某环境下满足某条件时，拥有相同的均衡、设计者效用与参赛者效用。也就是说，任何多奖项竞赛都可以转化为单奖项竞赛去分析，也就不存在多奖项竞赛在最优性上面的优势。

六、总结展望

原文总结：
在本文中，我们研究当设计者有完全的自由选择奖励函数的情况下的最优竞赛设计。我们通过间接的方法解决了我们的问题，也就是寻找最优的奖项。我们开始着手于求解最优努力函数。该问题通过研究对于一个特定的参赛者类型，其递增努力的虚拟代价。然后我们解出了包含该努力函数的奖项。使用这个方法，我们分析了设计者的两个目标函数以及参赛者的两个估值函数。我们有关该分析的结果总结在表格1中。
从表格1和第五部分的结论中，我们的主要发现如下：第一，最优奖项可能随着参赛者的努力递增或者递减。第二，最优奖项也可能是负值的。第三，最优奖项并不一定使得最低类型的参赛者不参与竞赛。第四，与被分配的奖项个数无关。
最让人惊讶的结果就是，胜利的奖项（胜利概率）不一定随着努力分数而递增，还有可能递减！对于胜利奖项随着努力分数递增而递增的竞赛非常容易想象。好表现带来的奖励可能是胜利外部的奖励，设计者额外的支付或者仅仅可能更快的获得奖项。另一方面，胜利奖项随着努力分数递减的场景也并不直接显然。然而，但这的确会发生在奖项随着时间递增的竞赛案例中。这可能发生在，如果类似于X价格的竞赛获胜的钱数伴随着时间递增，因为组织者不断从赞助商处筹得资金。该现象出现的原因就是，阻碍参赛者早期就付出更大的努力（都想等一等钓大鱼）。因此，时间与努力成反方向，虽然奖项随着时间递增，努力分数却随着时间递减。
虽然这里我们研究的环境限定在竞赛，但使用相同的工具也可以用来分析其他环境下带有独立于分数奖项的最优机制设计。比如说，某人可以研究带有分数独立奖项的经典拍卖机制。除此之外，某人还可以研究一个混合模型，其中一部分的努力沉没，剩余部分当胜者产生时再花费掉，比如说建筑合同中的竞赛。