当今社会人与人之间的关系越加趋向冷漠与疏远;在涉及自己利益的时候,人们通常倾向于开启一种拒绝合作、谋求个人利益第一的防御模式。人们常说人与人之间的信任越来越少了,难道真正的社交姿态、互动模式应该是迂回、防御吗?今天我希望和大家分享一些对于经典的博弈论模型的思考,以探索当今社会背景下,人们最佳的社交姿态与互动模式。
首先我想从大家都以熟知的囚徒困境模型开始:当然,这是一个与我们更为切合的模型,如下所示:
考试成绩可以预期:如果复习,则考试成绩92分;如果没复习,则考试成绩80分。报告是你和你的拍档合作完成的:如果你和拍档都准备报告,则每人100分;如果只有一人准备报告,则每人92分;如果两人都没准备报告,则每人84分,最终成绩取考试与报告成绩的均值。假设在截止日期前一天,你有两件要做的事情:一是复习(为了参加考试),二是准备(给一个报告)。你只能选择做一项。那么你该选择做什么呢?
经典“囚徒困境”收益矩阵
考试-报告收益矩阵
通过考试-报告收益矩阵表格,在独立决策、并以追求自我利益最大化的情况下,我们可以非常直观地发现无论是我的搭档选择准备报告或复习考试我都应该选择复习考试,考试的收益都要高于准备报告的收益。[92>90 / 88>86]
但是对于我的搭档来说,他同样也充分了解该收益矩阵,并做出对自己最有利的决策,也就是选择复习考试,这样下来,我们会发现二者都选择了严格占优策略,最终一定会达到[88,88]的纳什均衡,但这样的结果便是好的吗?
接着,我们将二者所得的成绩,也就是收益矩阵中的每一组成绩进行均值计算就能发现。但是在收益矩阵中仍然存在一个比该情况更好的情况,也就是存在着帕累托改进的余地。
各可能结果的社会总福利
这并不是对于社会福利最优的一种状况。读到这里你便会想到,但其实我与我的搭档并不都想只得到88分的成绩,那如果我们都约定好一起准备报告呢?在收益矩阵中,我们可以看出当一方选择准备报告时,另一方进行复习考试的收益是更大的,倘若我乖乖合作了,另一方想要追求自我利益最大化呢?人际互动中缺乏信任将导致合作破裂,但确实创造了更加大的利益。这样我们理当复习考试、不予合作是否就印证了现今社会信任不再、人情淡漠的现状呢?
不是这样的,尽管此次不予合作者以信任的代价取得了更高的成绩(或是88纳什均衡的一个较为一般的成绩),但是第二次考试缺失信任者将很难再次获得他人信任,达到[自己92,他人86]的较好成绩,只能一次次达成88的纳什均衡,因为不会有人选择与其合作。长此以往看来,让利于他人、建立信任才能创造更高的个人收益与社会福利,才应该是社交互动的发展方向才对,现实为何又有一些偏差呢?
接下来我们对这一个模型进行进一步的简化和完善,为了模拟出社会,我们需要设置更多个体以及各种不同的决策类型,比如
老好人:永远选择合作。
老油条:永远选择欺骗,也就是严格佔优策略。
复读机:在上一轮博弈中,对手选择合作便合作,对手选择欺骗便欺骗。
记仇者:一开始合作,一旦对方在博弈过程中出现欺骗的情况便再也不会选择合作。
侦探:先合作,欺骗,合作,合作;如果存在欺骗就变成复读机;不存在就是老油条。
积分赚取规则
群体博弈模拟:每个人分别和除自己以外的其他所有人进行10轮博弈,赚取积分。
(以下仅展示五轮分次得分)
可见,持续采用严格占优策略解决问题并不能真正胜出,在这里引用该模型出处《信任的进化》中的一段话“仅仅复制别人动作的复读机可以与他人良好的相处,而此时的老油条们只能自己骗自己。当他们需要对战复读机这种只会以其人之道还治以其人之身的人的时候,一定会让老油条们尝到作茧自缚的滋味。‘我们并不因罪恶而受罚,而是罪恶本身会惩罚我们。’–阿尔伯特哈伯德”
正如此,采取互惠互利信任他人而非一只采取严格占优不予合作的人能占领社会的主流并取得较大利益。但并不是所有情况都是“复读机”取胜,当该游戏的后果变为“你死我活”或者被定义为“成王败寇”的时候,往往还是“老油条”取胜。这样的游戏机制被称为“负和/零和游戏”,即总利益和为0或者负;而如下图的复习-考试机制,所谓纳什均衡与社会最优一致的系统才是理想系统,人们趋向于创造帕累托最优的均衡。
讲到这里,其实不难发现,有些时候这个社会的某些机制在鼓励个人最优,而非尝试达到合作双赢的社会最优;比如压力面试中的选出组内表现最差的人并剔除。颇受关注的227事件也再一次印证我们此番迎来的是一个以举报制度、人肉搜索为武器时代,此前的同人圈网文作者遭抄袭人肉反被告上法庭之事亦可见其端。于此,更希望大家能够宽容互惠,少一点戾气与决绝,社会更加宽容和谐。
周逸轩1171000122