用马尔可夫过程分析双升游戏胜率统计方法合理性

双升,也叫拖拉机、80分……,是非常普及的一种扑克游戏。几乎所有的棋牌游戏平台都有这个游戏,不少平台都有胜率统计,以此作为标识玩家水平的标志。但是,胜率真的合理吗?真的能够反映玩家水平吗?

我们不妨用随机过程的方式来分析一下。
玩过双升的人都会明白,坐庄优势巨大容易获胜,而攻庄要获胜难度很大。
于是我们设一对选手在坐庄和攻庄时的胜率分别为 p 1 , p 0 p_1,p_0 p1,p0.
而根据游戏规则规定,下一局谁坐庄只取决于上一局的胜负。因此,该问题属于马尔可夫过程,可以写出转移概率矩阵:
P = [ p 1 1 − p 1 p 0 1 − p 0 ] P=\begin{bmatrix}p_1&1-p_1\\p_0&1-p_0 \end{bmatrix} P=[p1p01p11p0]
利用平衡方程或者求极限,可知其稳态的概率分布为:
[ p 0 1 − p 1 + p 0 1 − p 1 1 − p 1 + p 0 ] \begin{bmatrix}\frac{p_0}{1-p_1+p_0}\frac{1-p_1}{1-p_1+p_0}\\ \end{bmatrix} [1p1+p0p01p1+p01p1]

即:最终稳定的获胜概率为 p 0 1 − p 1 + p 0 \frac{p_0}{1-p_1+p_0} 1p1+p0p0,而且与第一局谁坐庄无关。

如果甲乙两对玩家实力相当,双方对阵时双方的获胜概率都是 p 1 = p ,则 p 0 = 1 − p 1 = 1 − p p_1=p,则p_0=1-p_1=1-p p1=p,则p0=1p1=1p

此时转移概率矩阵为 [ p 1 − p 1 − p p ] \begin{bmatrix}p&1-p\\1-p&p \end{bmatrix} [p1p1pp]
而最终稳定的获胜概率为0.5。这很好理解,因为双方势均力敌,当然胜率应该相当。

现在如果有一方耍流氓,赢了就继续玩下去,输了就离开,然后重新开始抢庄。于是 p 0 = 0.5 , p 1 = p p_0=0.5,p_1=p p0=0.5,p1=p,由于此项目特点,显然一般有 p 1 > 0.5 , p 0 < 0.5 p_1>0.5,p_0<0.5 p1>0.5,p0<0.5

此时转移概率矩阵为 [ p 1 − p 0.5 0.5 ] \begin{bmatrix}p&1-p\\0.5&0.5 \end{bmatrix} [p0.51p0.5]
而最终稳定的获胜概率为 1 3 − 2 p > 0.5 \frac{1}{3-2p}>0.5 32p1>0.5
这样一来,他们的胜率提高了,并且这个胜率是真实的,但是他们的水平根本没有变化。

如果反过来,如果对方耍流氓,输了就走,而他们自己输了却依然继续,成了受害者,那么这时候转移概率矩阵 [ 0.5 0.5 1 − p p ] \begin{bmatrix}0.5&0.5\\1-p&p \end{bmatrix} [0.51p0.5p]
而最终稳定的获胜概率为 2 − 2 p 3 − 2 p < 0.5 \frac{2-2p}{3-2p}<0.5 32p22p<0.5。胜率降低了
因此简单的胜率统计方法存在漏洞,存在胜率失真现象,同时鼓励玩家耍流氓。

再举个例子:有甲、乙两对玩家,坐庄和攻庄的胜率分别为:
甲:坐庄60%,攻庄45%,
乙:坐庄55%,攻庄40%
显然甲的水平要高于乙。
但是如果乙耍流氓,采取了逃跑策略,而甲并没有采取逃跑策略,根据之前的结论,甲、乙相互之间比赛的胜率为:甲 47.37%,乙 52.63% (不考虑二者与其他选手比赛情况),乙的胜率明显高于甲。
显然,单一的胜率不能反映水平。而且会鼓励形成“打得过就打,打不过就跑”的坏风气。

那么该如何应对,堵死漏洞呢?
建议可采用如下方法:
第一,以牙还牙,玩家如果发现对手输了就跑,跑了再回来,那就采取同样措施。这样结果是双方永远在起步。显然如果双方水平相当,那么胜率就是50%;

第二,游戏平台改进胜率统计方法,不再简单地计算胜率,而是分别统计两种条件下的胜率。如果有必要,以 p 0 1 − p 1 + p 0 \frac{p_0}{1-p_1+p_0} 1p1+p0p0计算总胜率,让真实水平可以得到体现。

第三,推广复式比赛。复式比赛条件下,人为将两类的数量设置为相同,于是:
P = [ 0.5 0.5 ] [ p 1 1 − p 1 p 0 1 − p 0 ] = [ p 1 + p 0 2 1 − p 1 + p 0 2 ] P=\begin{bmatrix}0.5\\0.5 \end{bmatrix}\begin{bmatrix}p_1&1-p_1\\p_0&1-p_0 \end{bmatrix}=\begin{bmatrix}\frac{p_1+p_0}{2}\\1-\frac{p_1+p_0}{2}\end{bmatrix} P=[0.50.5][p1p01p11p0]=[2p1+p012p1+p0]
要公平许多。

  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值