CS269I:Incentives in Computer Science 学习笔记 Lecture 19 Time-Inconsistent Planning(时序不一致计划)

Lecture 19 Time-Inconsistent Planning(时序不一致计划)

1 Utility Theory and Behavioral Economics(效率理论和行为经济)

在本课程中我们研究的几乎所有模型中,我们都正式定义了玩家的偏好。为了预测某人的行为方式(例如,他们的“最佳反应”),我们需要指定他们想要的内容。这通常涉及为玩家指定效用或收益,并假设每个玩家都希望使自己的效用最大化。(如果存在不确定性,那么其将最大化其期望效用。)这就是经典效用理论。然而,即使是最纯粹的效用理论家也承认,个人无法按需阐明自己的全部效用函数(甚至可能是事先分配的)。我们只能假设参与者的行为“就像“他们在最大化效用一样,而不论真正的内部决策机制可能是什么。我们如何检验这个假设?如果玩家的行为真是在最大化某个东西,那么他们的行为就应该具有某些特性。例如:

  1. 可传递性。如果玩家喜欢A>B,B>C,那么他应该喜欢A>C。

  2. 单调性。如果我们给玩家额外的选择,她只会做得更好。(如果需要,她可以始终忽略新选项,并做与以前相同的操作。)

这些是可以测试的属性。事实证明,在一系列不同的实验中,人们的行为总是不能通过这些测试。这样的经验发现促使人们重新考虑经典的效用模型。

行为经济学在本世纪日益流行。它提出了行为模型来解释与经典效用理论的预测之间的系统偏差。然后,有趣的是讨论这些模型对策略、系统设计等的影响。 Kahneman和Tversky 提出的prospect thoeory(前景理论)是行为经济学的重要组成部分。该理论包括几个部分,其中包括人们倾向于高估小概率的假设以及“厌恶失去”,这意味着人们比起类似的收益更重视损失的价值。在本讲座中,我们将重点讨论与经典效用理论不同的系统偏差:时间不一致

2 A Model of Time-Inconsistent Planning(一个关于时间不一致性的模型)
2.1 Procrastination

接下来,我们概述“拖延理论”。从一个例子开始是最容易的,所以我们将叙述阿克洛夫的自传故事。他在印度呆了一年,并且要把朋友的盒子运回美国。这不是一件容易的事(在邮局排队等),但他必须这样做。每天早上醒来时,他都有全力以赴明天装运盒子的打算。然后明天将到来,逻辑将重演。结果是在阿克洛夫运送盒子之前耽搁了几个月。

一个简单的模型可以解释发生了什么。假设延迟运输的成本为每天延迟1个单位,包装箱的运输成本为c>1,什么是最佳(最低成本)的操作?优化问题是选择延迟t≥0以最小化t + c。(完全不是一个困难的优化问题,只需将t设置为0即可。)但是,Akerlof不知何故没有选择这种最优解决方案,而且随着他的耽搁成本线性增加。

今天的课程的主要假设是present bias(当前偏见):决策发生的该日,成本是实际成本的b倍,其中b> 1是当前偏见的程度。该模型解释了Akerlof的行为:在给定的一天t≥0时,当天的增量运输成本将被视为b·c,而延迟一天并第二天运送的增量成本为b·1 + c = b + c。请注意,在第二种情况下,运输成本(明天)仅是c,而不是b·c——玩家确实认为当天是特殊的,并且天真的假设将来的一天并不是特殊的。

对于计算机科学家来说,用图表来说明阿克洛夫的故事是很自然的。(例如,在AI中,规划问题通常被建模为图形搜索。)在下图中,每个顶点代表一个当前状态,每个边缘代表一个动作。围绕“风扇”边界的边缘对应于延迟一天,t的每个边缘对应于装运包装箱。边缘标有其成本。当玩家处于给定的顶点v时,她会计算到t的最短路径,但会有所不同:离开v的边会按比例b放大。

在这里插入图片描述

如果生成的最短路径P的第一条边为(v,w),则玩家将移至w并重新进行相同的计算。阿克洛夫的例子表明,玩家在经过移动后可能会改变主意,例如,按照原计划明天做的事情,到了明天并不会真的做。但是,传统的最短路径计算永远不会发生这种情况。

2.2 The Model

这是一般模型:

  • 有向无环图G具有唯一的始点s和唯一的终点t。
  • G的每个边e具有非负成本ce。
  • 在每个顶点v,玩家选择v-t路径P,该路径将b·(下一跳的成本)+(所有后续跃点的成本)最小化,然后遍历P的第一跳(然后重复相同的计算)。

行为经济学中的一个相关概念是“双曲线贴现”,它把当前的偏差和指数贴现结合。为简单起见,我们假设本讲中不存在贴现(只是存在偏见),但是所汲取的经验教训也能用于双曲线打折模型。

2.3 Choice Reduction(减少选择)

接下来,我们使用一个模型来说明减少选择对具有当前偏见的玩家有何好处。考虑一下下图。故事是:您要参加一个为期三周的课程,并且需要在课程结束时完成两个项目。图表中的每个“列”对应于课程持续的三周,每个“行”表示已完成的项目数。在给定的一周内啥也不干的成本为1;做一个项目的成本为4;做两个项目的成本为9。路径的最低成本为9(1+1+4)。但是,当前偏差b = 2的玩家会做什么?

在这里插入图片描述

第一周:
一下两个项目显然太疯狂了(预计成本为20);如果现在做一个项目,之后再做一个项目的成本为2·4 +4 +1 =13;如果现在不做任何事情,第二和第三周每次做一个项目,则成本为2·1 +4 +4 = 10,因此玩家在第一周不会进行任何项目。

第二周:

​ 同时进行这两个项目还是太疯狂了。如果现在做一个项目,下周进行另一个项目似乎是合理的,成本为2·4 +4 =12;但是再次拖延(并且在下周一口气完成这两个项目),成本仅为2·1 +9 = 11,因此这就是玩家要做的。

不过,该课程的讲师有一个简单的选择可以防止这种拖延:只需要求至少一个项目在第二周结束之前完成即可。这具有从图2的图形中删除右上角顶点的效果。现在,玩家将在第一周再次拖延,但将遵循最短的路径,在第二周和第三周分别完成一个项目。使用经典的效用最大化,玩家无法产生这种有益的选择减少。

2.4 Task Abandonment(任务放弃)

在下一个示例中,我们扩展了基本模型。首先,我们在终点t处放置非负奖励,(如果需要,还可以提供中间奖励。)但是,玩家不再被迫一直走到t;她只有在由此产生的报酬超过其预期成本的情况下才这样做。玩家可以随时停止以避免产生任何其他成本。考虑下图中的示例,并再次假设b =2。将第一条边线视为是否报健身课,将第二条边线视为是否真的去上课。

刚开始时,玩家前往t的感知成本为2·1+4=6,少于到达t的回报7,因此她会报名健身课(健身完成的回报看起来非常美好,所以让她克服了惰性)。

但是,在玩家达到v之后,实际去健身房的成本增加至2·4=8,超过了奖励,玩家便停止在v位置(等到真的要去的时候,突然懒了起来)。同样,这种任务放弃,对于古典的效用最大化玩家而言是不可能出现的。

在这里插入图片描述

3 The Cost of Present Bias(当前偏见的成本)

在我们所有的示例中,当前偏见导致玩家走过的是比最佳路径花费更高的路径。在本节中,我们重点关注的问题是:与最短路径相比,所选路径会恶化多少?这个问题使我们想起了无政府状态的代价(第7讲),在该研究中,我们研究了(许多参与者)的自私行为的结果相对于社会最优结果有多糟糕。

3.1 The Weakly Monotone Case(弱单调情况)

将计划实例的**cost ratio(成本比率)**定义为具有当前偏差的代理遍历路径成本与最短路径成本之间的比率。在阿克洛夫的原始示例(图1)中,最短路径的成本为c,而现实偏见的路径的成本随顶点数n线性增长(大致为n + c)。成本比率会比这更差吗?

接下来,我们确定一个条件,在该条件下,成本比率的上限受图中顶点数的控制。

定义3.1:我们称一个计划实例是弱单调的,如果:

​ 对任意v∈V:d(v,t)≤d(s,t)

​ 其中d(v,t)表示从v到t的最短路径的长度。

我们强调,上面定义的最短路径距离是基于真实成本而非感知成本的。弱单调性并不意味着无法后退(即,在经过某条边后发现自己和t的距离反而增大了),仅意味着和t的距离不会比开始的地方更远。例如,想象一下一场马拉松比赛的训练:如果您跳过一些训练课程,您的水平会因为生疏而降低,但不会超出您根本没有进行任何训练的程度。到目前为止,我们考虑的所有实例都是弱单调的。弱单调实例不能具有超线性成本比率。

命题3.2在每个弱单调规划实例中,对于任何当前偏见b≥1,成本比率至多为顶点数n。

证明:设P为玩家选择的路径。由于P最多具有n个(实际上是n-1个)边,因此足以表明P的每个边缘最多具有d(s,t)的成本。

要了解为什么如此,固定边e =(v,w)∈P。当玩家位于顶点v时,最短路径v-t的成本(其中“最短”是指真正的成本))最多为b·d(v,t)。另一方面,沿着从v到t的路径P的感知成本至少是第一跳的感知成本,即b·ce。由于代理选择遵循路径P而不是最短的v-t路径,因此b·ce≤b·d(v,t)。因此,ce≤d(v,t),并且,根据弱单调性,ce≤d(s,t)

3.2 Lower Bound for the General Case

每个图都是弱单调的吗?不,而且非弱单调的图,成本比率可能比阿克洛夫拖延的例子要差得多。为此,请考虑下图中所示的示例。就像在Akerlof的示例中一样,玩家每天计划拖延一天,然后明天再尝试。但是,与阿克洛夫(Akerlof)的示例不同,每次玩家拖延时,t的成本就会增加b倍。此图中最短路径的成本为c,而玩家选择的路径的成本为b^n*c,因此成本比的顶点数呈指数关系。

在这里插入图片描述

阿克洛夫在他的论文中引入的其他几个故事与上图中的糟糕示例非常吻合——被动性,自满或过分服从如何导致危机升级和代价高昂的结局。他讨论了毒品的成瘾(戒毒的难度会随着时间的增加而增加),越南战争暴力升级期间LBJ作战室的社会学,等等。

根据这个具有指数的成本比率的例子,我们希望得到什么样的积极消息?下一个结果至少提供了一定的安慰:计划问题可以具有指数成本比率的唯一方法是包含上图中的示例。在(半正式)语句中,我们使用“ Fk”来表示上图,其中k表示非终点的数量.

定理3.3如果一个图G具有指数成本比率,那么图Fk一定为其拓扑子图,其中k=Ω(n)

注意:我们会跳过关于拓扑子图之类的复杂定义,直入主题。

证明:考虑一个有n个顶点和一个指数成本比率(α^n)的图,我们的任务是证明存在类似Fk的图结构,且k至少是n的某个常数倍。

证明思路:分析上图,我们产生一种感觉,即和P的成本应该是一次次拉大的,并不能一步登天。为了把这种感觉利用到证明中,我们首先证明路上的某一个点的成本极高;再证明每一步拉大的成本不能太多

令P为玩家最终选择的路径。首先,我们应该证明,P的长度是比较长的。

由于路径P的成本至少是αn,因此存在一条边e=(x,y),其成本至少为αn/n,因此可以取一个常数β,使得其成本恰好为βn。那么,由于她在前往t的时候选择了e,就说明d(x,t)至少为βn(当然,玩家在x时看起来是b·β^n)

接下来,我们断言P中的路径最多可以让玩家以b的倍率远离t。亦即:如果(u,v)∈P,则:
d ( v , t ) ≤ b ⋅ d ( u , t ) d(v, t) \leq b \cdot d(u, t) d(v,t)bd(u,t)

证明和命题3.2类似。在u,玩家看到的到达t的最短路径的成本至多为b·d(u,t),因此,其前进一步选择的路径d(v,t)的成本也就至多为d(v,t),证毕!

将这两个结合,我们就知道d(x,t)≥β^n·d(s,t),从而走过的步数至少为nlog_b(β)=Ω(n),并且把走过的路径连起来就能形成一个Fk的图结构:

在这里插入图片描述

4 Sophisticated Players(精明的玩家)

之前我们都假设玩家是“天真的”,也就是说他们是当前偏见的,但是他们甚至没有意识到他们是当前偏见的。(回想一下阿克洛夫的例子,他总是计划在明天早上8点邮寄盒子,就像某种程度上感觉到 明天的成本要比今天要低。)

接下来,我们考虑精明的参与者,他们当前偏见,但他们知道自己偏向当前,并采取相应的行动。 (例如,每当您为自己设定虚拟的中间期限时,您就变得精明并意识到将来必须拖延的诱惑。)天真的和复杂的偏见行为在实验(和现实世界)中都很常见。

要了解天真的玩家和精明的玩家之间的区别,请考虑下图中的示例。

假设c< b<c2,(v0,t),(v1,t),(v2,t)代表在周四,周五或周六进行作业。我们已经知道天真的人将做什么:由于这个示例是F3的特例,因此她只会拖延到周六再去做功课。但是,经验丰富的人在周四选择做作业或推迟之前会进行成本效益分析。如果现在做功课,成本就是b。 (尽管她很精明,但她仍然不可避免地存在偏见。)如果拖延,她就会问:“到了星期五我将做什么?”由于她的星期五自我会在做作业(成本b·c)和推迟到周六(以成本c^2)中选择拖延(因为b> c)。这意味着,在星期四,拖延到星期五的感知成本(并且知道她在星期五将再次拖延)为b·0 + 0 + c^2 = c2。由于c2> b,精明的人将在周四做作业,以剥夺未来的自我进一步拖延的选择。

在这里插入图片描述

正如你预期的:在给定的顶点v上,玩家选择下一跳e =(v,w)以最小化:b·ce +(未来自我从w开始付出的成本)

该定义不是循环的,因为玩家之后在每个点处的成本可以通过dp的方式进行确定。

我们在两个示例中看到,精明的参与者做出的决策要比幼稚的参与者做出的决策要好得多。 但是,精明的参与者并不是完美的:如果我们从上图中删除顶点v2,那么精明的参与者就会拖延(假设c <b),因此成本比率可以任意接近当前偏见b。 事实证明,没有更糟糕的例子。

定理4.1对于每个计划实例,精明的参与者的成本比率至多为b

证明:只要注意到,假设起点到终点的正常最短路径为P,成本为d(s,t),那么在精明的参与者的眼中,这条路径的成本至多为b·d(s,t);而精明的参与者又在第一步就会考虑之后所有可以走的情况并选出成本最少的一条,因此其选择的路径的成本也就至多为b·d(s,t)。 证毕!

定理4.1是个好消息——精明的玩家在最坏情况下造成的成本比率(b)远小于天真的玩家(α^n)。但是,在不是最坏的情况下,这都是真的吗?令人惊讶的是,精明玩家选择的路径不仅可以任意接近最短路径的b倍,它甚至可以任意接近于天真玩家的b倍。

考虑一下下图中所示的问题,其中x是一个很大的数,ε接近0。一个天真玩家选择路径s→u→v→t,代价为x + b-ε。精明的玩家知道,如果到达u,他就会拖延并走u→v→t而不是u→t的路径。因此,走(s,u)的成本为bx + b-ε。这会导致经验丰富的玩家转而走(s,w),以便使成本达到bx + b- 2ε。但是,当x→∞和ε→0时,复杂玩家的路径成本就会接近天真的玩家的b倍。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值