最优停止理论 Optimal Stopping Theory 经典秘书问题 Classic Secretary Problem

转载自:https://blog.csdn.net/hilda_Huang/article/details/8099202

 

在博弈论中,类似问题,有相亲问题、见好就收、苏丹嫁妆问题、挑剔的求婚者问题等 。首先通俗解下类似问题:相亲问题,售房问题。

       相亲问题描述如下:

       假如一个非常优秀的人相亲,已知追求的他的人有有限个,例如10位,并且根据个人的评价,给这10个人给予了综合打分。现在规定,交往中他不能脚踏两只船,即不能同时和两个人交往,如果在交往之后他没有接受这个人,那么,以后也没有机会再选择这个人作为对象。然后接着和下一个人交往。

       这个问题可以看出,无论什么时候选择都会面临很多不确定性,比如无法预知是否错过了最优秀的人选,或者在选择后,后面会不会有更好的人选。那么,他随机和这些人交往,在和第几个人交往时,他能选择到最优秀的人作为对象呢,即何时停止交往可以使他选择到最优秀的人最为对象呢?

       第二个例子是售房问题。假如你要卖掉一套房子,然后有人来买你的房,每个人出的价格不都是一样的,如果你把房子卖给第一个人,那么后面可能会有人出价更高,你会觉得自己亏,那么你拒绝了第一个人,然后等待第二个人来买,但是在等待的过程中,你需要为没有卖出的这套房子缴纳物业费等费用。立即卖掉会让你节约开销,但是不能保证你卖掉后的净收益最高,那么何时停止会使你的净收益最高呢?

     类似的问题还有:投掷硬币猜正反面的赌博,盗窃问题等等[sr1.pdf]。

 

下面是停止规则的一般归纳,它是通过两个对象来定义的:

      (1)一系列随机变量X1,X2,…,它们的联合分布规律是已知的,

      (2)一系列奖励函数Y0,Y(X1),Y(X1,X2),…

       在考虑这两个对象时,你可以一直观察随机变量X1,X2… 在观察变量Xn时,你可能会选择停止,这个时候你获得的奖励是函数Yn(X1,X2,X3…,Xn),当然这个函数值也可能是负数,比如女青年相求问题,加入相亲了N个人(N很大难过),那么她会经历从“剩斗士”到“必剩客”再到“齐天大剩”的过程,想想,还是很吃亏的(不仅木有回报,并且逝去了最美丽的年华)~~你也可能是持续观察下一次的过程,记为N 趋于无穷大,那么这时候也有一个对应的回报函数值。现在要解决的问题是,在何时停止观察随机变量x,可以是我们的回报函数值最大。

       这里给出了理想的情况下,如何求解经典秘书问题:

       问题描述:要聘请一名秘书,有n人来面试,n是已知的,而且面试者的能力有排名,随机进行面试,每个人的机会是均等的。每次面试一人,面试官便要即时决定聘不聘他,如果当时决定不聘他,他便不会回来。面试时总能清楚了解求职者的适合程度,并能和之前的每个人作比较。问凭什么策略,才使选得到最适合担任秘书的人的机率最大?

       采取的策略:对前r-1个人都拒绝,然后对剩下的n-r+1个人进行面试,如果任何一个面试者比之前面试的人都优秀,那么就聘请这个人。前r-1个人被聘请的概率为0,假设从第r个人开始面试,面试到的第k个人是最优秀的并且被选中的应聘者。那么

最优秀应聘者被选择的概率为:

        其中,第k个为最优秀的并且被选中的人,根据概率论的知识,可以化简为,第k个人在最优秀的前提下被选择。因为最优秀的人只有一个,所以它的概率为1/n,同时也就意味着,在前k-1中,最优秀到人在r-1个人中。

       既然是最优秀的,那么,最优秀应聘者被选择的概率大于他前后应聘者被选中的概率,所以有,

       得到r一般表达式,现在要找到最优解,等价于找到满足下列条件最小的r值:

    [详解见附件sr2.pdf]

 

      The university of Alabama in Huntsville对上述表达式部分n值求解结果如下:

     观察可知结果在逐渐变小,Alabama大学对表达式中不同n值与P的关系作图,详见链接:   http://www.math.uah.edu/stat/urn/Secretary.html        这里通过表达式一样可以近似得出与Alabama大学描述相同的结果,解答过程如下:

      当n趋于无穷大,调和数列求和可以近似化简,

如果作者了解微积分到话,求解过程会更易懂,应用微积分的解法如下:

 

 

令n趋近无穷大,把x表示为k/n的极限,令t为i/n,上述公式可近似为如下积分:

令P(x)对x的导数为0,解出x,我们得到最优的x等于1/e.从而,当n增大时,最优的k值趋近于n/e,最佳人选被选中的概率为1/e=0.368.

 

参考     http://zh.wikipedia.org/wiki/%E7%A7%98%E6%9B%B8%E5%95%8F%E9%A1%8C 

 

所以,经典秘书问题得出面试中应聘到最优面试者的概率是0.368,通俗所,100个人来面试,第36个人或者第37个人是最优应聘者的概率是最大的。

       个人觉得这是博弈论中一个问题的理想化解决方法,实际中是否如此呢?结果当然是不一定了。因为我们都知道,被拒绝的求职者有一定机率能被叫回来;面试官面对应聘者可能有一定个人情感在其中;最终被选中的应聘者选可能会多于一人等等。

      但是这个结果是否有用呢?结果是肯定的,至少如果有一天你去面试一个岗位,面试官可能会出一道类似的智力题让你回答。比如我同学告诉,有面试官会问应聘者:如果给你一个硬币,你至少抛多少次,才会出现连续三次出现反面的情况呢?再比如,如果现在抛硬币七次,出现的都是正面,那么再抛一次硬币,是出现正面的概率大,还是出现反面的概率大呢?(这两个问题作为悬念留个读者吧微笑

 

 

      最优停止理论 Optimal Stopping Theory, 在经济学、金融领域使用非常广泛,例如美式期权在股票交易中看涨看跌,执行期权,基本都使用停止理论来求解。国内外非常多的论文中使用了最优停止理论,但是限于金融方面,所以我不曾拜读这些文章;后面会给大家介绍这个理论在互联网领域的应用,敬请期待~

 

 维基百科对最优停止理论的介绍链接为:  http://en.wikipedia.org/wiki/Optimal_stopping

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值