CS269I：Incentives in Computer Science 学习笔记 Lecture 17 评分规则和同辈预测（诚实预报和反馈激励）

最新推荐文章于 2024-07-17 23:24:38 发布

ldc1513

最新推荐文章于 2024-07-17 23:24:38 发布

阅读量872

点赞数

分类专栏：学习笔记文章标签：算法博弈论

原文链接：http://timroughgarden.org/f16/f16.html

版权

Lecture 17 Scoring Rules and Peer Prediction(Incentivizing Honest Forecasts and Feedback)（评分规则和同辈预测（诚实预报和反馈激励））

1 Scoring Rules（评分规则）

1.1 Motivation

我们接下来的目标是对于一个非确定性时间给出一个好的预测。例如：

你问天气预报：明天下不下雨？
你问民调机构：下次选举是民主党赢还是共和党赢？
你问微软的一个雇员：下一个版本的MS Office会不会延期发售？

评估预测的质量似乎很棘手。例如，假设天气预报员宣布“明天有30％的机会下雨”，然后下雨。这到底是预报不好呢，还是预报比较倒霉？
一种简单的方法是，如果预测对实际发生的结果的概率大于50％，则将其称为“好”，否则将其称为“不好”。但这是一个奇怪的规则——预报员没有理由说“100％”或“0％”以外的任何内容。（因为无论如何，“51％”都和“100％”相同。）那么，为什么预测者要费心去制定更细微的预测？显然，我们希望“良好”预测的二元论概念更少，而我们对预测质量的评价会随着发生的结果的增加而增加。

为了标准化这个结论，令X为所有可能的结果的集合，而我们迄今为止讨论的二元事件（“阴晴”“民主共和”“准时延迟”）表明|X|=2。取|X|=2确实是足够的，尽管如果取更多的值我们就能得到更加一般性的结论。

定义1.1：（Scoring Rule，评分规则）一个评分规则是指一个实值函数S(q,i)，其中q是一个在X上的概率分布（预测），i是X上的真实结果。

例如，我们在上面的例子可以解释为：q是“下雨/不下雨：30％/70%”，i是“下雨”。如果q_i> 1/2，则上面的二元计分规则对应于设置S（q，i）= 1，否则为0.

1.2 Strictly Proper Scoring Rules（严格正确评分规则）

我们接下来的目标是建立一个“真实的（truthful）”的评分规则。为了规范化，我们需要考虑是什么在激励预报者。模型如下：

一个拥有某种“信念”p的预报员，p是在X上的一个概率分布。
一个预报员希望选择她的预报q，使得她在上面的评分函数中得到的分数最大化（q和p可能相等也可能不等）。事实上，这并不是很有意义，因为预报员的分数还要取决于真实的结果，这并不由她控制。因此我们假设播报员希望最大化她的期望分数：
$\max _{\mathbf{q}} \mathbf{E}_{i \sim \mathbf{p}}[S(\mathbf{q}, i)]$
其中i的期望是由播报员心中对i的分布的“信念”p决定的。

注意：我们假设播报员是关心她的期望分数的。这可能是因为分数代表着报酬，或者名誉之类的激励趋势。

给定这个模型，我们就能够定义评分规则的“真实性”：使得p=q的评分规则。因为历史原因，这种规则称为“strictly proper（严格正确评分规则）”。

接下来是对于评分规则的关键定义：

定义1.2：（严格正确评分规则）一个评分规则S是严格正确的，如果不论播报员的真实信念p是多少，其唯一最优反应都是诚实地进行预报。

当然，也可以定义（较弱的）正确评分规则：最优反应是诚实播报，但是可能会有多种最优反应。但是，这种定义比较无聊，因为就算给所有的q都评分S(q,i)=0，结果也是正确的。

1.3 A Non-Example

让我们试着来寻找一个严格正确评分规则。回忆一下，我们想要播报员给出她们真实的预测。也许我们应该先来试试这个：
$S(\bold{q},i)=q_i$
其中q_i是指在q中预测的出现i的概率。

这个规则是严格正确的吗？事实上，它甚至都不是弱正确的！这个规则会激励播报员报出的q是其在信念p下认为最有可能出现的结果。

证明：显然在q和规则S下得到的期望评分为：
$E[Score]=\sum_{i\in X} p_iq_i$

最低0.47元/天解锁文章

ldc1513

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS269I：Incentives in Computer Science 学习笔记 Lecture 17 评分规则和同辈预测（诚实预报和反馈激励）

Lecture 17 Scoring Rules and Peer Prediction(Incentivizing Honest Forecasts and Feedback)（评分规则和同辈预测（诚实预报和反馈激励））1 Scoring Rules（评分规则）1.1 Motivation我们接下来的目标是对于一个非确定性时间给出一个好的预测。例如：你问天气预报：明天下不下雨？你问民调机构：下次选举是民主党赢还是共和党赢？你问微软的一个雇员：下一个版本的MS Office会不会延期发售？
复制链接

扫一扫