CS269I:Incentives in Computer Science 学习笔记 Lecture 17 评分规则和同辈预测(诚实预报和反馈激励)

Lecture 17 Scoring Rules and Peer Prediction(Incentivizing Honest Forecasts and Feedback)(评分规则和同辈预测(诚实预报和反馈激励))

1 Scoring Rules(评分规则)
1.1 Motivation

我们接下来的目标是对于一个非确定性时间给出一个好的预测。例如:

  1. 你问天气预报:明天下不下雨?
  2. 你问民调机构:下次选举是民主党赢还是共和党赢?
  3. 你问微软的一个雇员:下一个版本的MS Office会不会延期发售?

评估预测的质量似乎很棘手。例如,假设天气预报员宣布“明天有30%的机会下雨”,然后下雨。这到底是预报不好呢,还是预报比较倒霉?
一种简单的方法是,如果预测对实际发生的结果的概率大于50%,则将其称为“好”,否则将其称为“不好”。但这是一个奇怪的规则——预报员没有理由说“100%”或“0%”以外的任何内容。(因为无论如何,“51%”都和“100%”相同。)那么,为什么预测者要费心去制定更细微的预测?显然,我们希望“良好”预测的二元论概念更少,而我们对预测质量的评价会随着发生的结果的增加而增加。

为了标准化这个结论,令X为所有可能的结果的集合,而我们迄今为止讨论的二元事件(“阴晴”“民主共和”“准时延迟”)表明|X|=2。取|X|=2确实是足够的,尽管如果取更多的值我们就能得到更加一般性的结论。

定义1.1:(Scoring Rule,评分规则)一个评分规则是指一个实值函数S(q,i),其中q是一个在X上的概率分布(预测),i是X上的真实结果。

例如,我们在上面的例子可以解释为:q是“下雨/不下雨:30%/70%”,i是“下雨”。如果q_i> 1/2,则上面的二元计分规则对应于设置S(q,i)= 1,否则为0.

1.2 Strictly Proper Scoring Rules(严格正确评分规则)

我们接下来的目标是建立一个“真实的(truthful)”的评分规则。为了规范化,我们需要考虑是什么在激励预报者。模型如下:

  1. 一个拥有某种“信念”p的预报员,p是在X上的一个概率分布。

  2. 一个预报员希望选择她的预报q,使得她在上面的评分函数中得到的分数最大化(qp可能相等也可能不等)。事实上,这并不是很有意义,因为预报员的分数还要取决于真实的结果,这并不由她控制。因此我们假设播报员希望最大化她的期望分数
    max ⁡ q E i ∼ p [ S ( q , i ) ] \max _{\mathbf{q}} \mathbf{E}_{i \sim \mathbf{p}}[S(\mathbf{q}, i)] qmaxEip[S(q,i)]
    其中i的期望是由播报员心中对i的分布的“信念”p决定的。

注意:我们假设播报员是关心她的期望分数的。这可能是因为分数代表着报酬,或者名誉之类的激励趋势。

给定这个模型,我们就能够定义评分规则的“真实性”:使得p=q的评分规则。因为历史原因,这种规则称为“strictly proper(严格正确评分规则)”。

接下来是对于评分规则的关键定义:

定义1.2:(严格正确评分规则)一个评分规则S是严格正确的,如果不论播报员的真实信念p是多少,其唯一最优反应都是诚实地进行预报。

当然,也可以定义(较弱的)正确评分规则:最优反应是诚实播报,但是可能会有多种最优反应。但是,这种定义比较无聊,因为就算给所有的q都评分S(q,i)=0,结果也是正确的。

1.3 A Non-Example

让我们试着来寻找一个严格正确评分规则。回忆一下,我们想要播报员给出她们真实的预测。也许我们应该先来试试这个:
S ( q , i ) = q i S(\bold{q},i)=q_i S(q,i)=qi
其中q_i是指在q中预测的出现i的概率。

这个规则是严格正确的吗?事实上,它甚至都不是弱正确的!这个规则会激励播报员报出的q是其在信念p下认为最有可能出现的结果。

证明:显然在q和规则S下得到的期望评分为:
E [ S c o r e ] = ∑ i ∈ X p i q i E[Score]=\sum_{i\in X} p_iq_i E[Score]=iX

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值