AIGC时代带你深度剖析：生日悖论背后的概率原理-CSDN博客

本文链接：https://blog.csdn.net/qq_32682301/article/details/147339225

文章目录

代码1：生日悖论模拟试验
代码2：50人班级里至少有两个同学同一天生日的概率
代码3：两个同学同一天生日的概率超过99%，班级里至少有多少人
《算法导论》

生日悖论是一个概率论中的现象，它说明了在一定的条件下，一个不太可能的偶然事件发生的概率会比直觉认为的要大得多。具体来说，生日悖论指的是，在一个随机选择的23人群体中，至少有两个人生日相同的概率超过50%。

假设一个班级有23个学生，我们可能会直觉地认为班级里至少有两个人生日相同的概率很低。但实际上，我们可以这样计算：第一个学生的生日可以是任意一天，第二个学生的生日与第一个学生不同的概率是364/365，第三个学生的生日与前两个都不同的概率是363/365，以此类推。当计算到第23个学生时，至少有两个人生日相同的概率已经超过了50%。

具体计算如下：

所以，23个人中至少有两个人生日相同的概率大约是50.73%。

在很多人看来，这个概率出人意料地高。如果你对这个结论持怀疑态度，还可以利用计算机生成随机数进行模拟试验。

代码1：生日悖论模拟试验

import random

def birthday_paradox试验(人数, 试验次数):
    生日相同次数 = 0
    for _ in range(试验次数):
        生日列表 = [random.randint(1, 365) for _ in range(人数)]
        if len(生日列表) != len(set(生日列表)):
            生日相同次数 += 1
    return 生日相同次数 / 试验次数

# 设置人数为23，试验次数为10000次
人数 = 23
试验次数 = 10000
概率 = birthday_paradox试验(人数, 试验次数)
print(f"在{人数}个人中，至少有两个人生日相同的概率为：{概率:.4f}")

以上代码通过随机模拟10000次试验来计算概率，输出结果可能在50%到52%之间波动，但总体上会接近理论值 50.73%。

而如果一个班级的人数是50人，至少有两个同学同一天生日的概率大约是97.04%。如果让这个概率超过99%，班级中至少需要有57名学生。由此可见在一个50-60人的班级里，至少有两个同学在同一天过生日完全是个大概率事件。

代码2：50人班级里至少有两个同学同一天生日的概率

from math import factorial

def calculate_probability(n, k):

    # Probability that no one shares a birthday
    prob_no_shared = 1
    for i in range(n):
        prob_no_shared *= (k - i) / k

    # Probability that at least two people share a birthday
    prob_shared = 1 - prob_no_shared
    return prob_shared

# Calculate the probability for a class of 50 students
probability_50_students = calculate_probability(50, 365)
probability_50_students

代码3：两个同学同一天生日的概率超过99%，班级里至少有多少人

import math

# Setting the target probability
target_probability = 0.99

# Initial values
n = 0
probability = 0

# Incrementing n until the probability is above the target
while probability < target_probability:
    n += 1
    probability = 1 - math.prod([(365 - i) / 365 for i in range(n)])

n

生日悖论在算法中的应用主要体现在概率算法和蒙特卡洛方法上。这些算法利用了生日悖论中的概率原理，通过随机抽样来估计某个问题的解。例如，在密码学中，生日攻击是一种利用生日悖论原理来破解哈希函数的攻击方式。

探索更多生日悖论对计算机算法的启发，推荐你阅读《算法导论》。

$延伸阅读$

$▼$

《算法导论》

在这里插入图片描述

推荐理由：MIT四大名师联手铸就。算法标准教材，国内外千余所高校采用！影响全球千万程序员！本书将严谨性和全面性融为一体，深入讨论各类算法，并着力使这些算法的设计和分析能为各个层次的读者接受。

获取方式

当当：https://product.dangdang.com/22927209.html
京东：https://item.jd.com/11144230.html

精彩书评

★“鉴于数据量的爆炸性增长，和计算应用的多样性，现在比以往更需要有效算法。这本书条理清晰，是一本非常好的算法设计与分析方面的导论性书籍。每章前半部分介绍了讲授和学习算法的有效方法，后半部分为更专业的读者和求知欲强的学生提供了更引人入胜的资料来讨论这个迷人领域的各种可能性和挑战。”　　——Shang-Hua Teng（腾尚华），南加州大学维特比工学院计算机系Seeley G. Mudd 教授　　★“本书是算法领域的一部经典著作，书中系统、全面地介绍了现代算法：从较快算法和数据结构到用于看似难以解决问题的多项式时间算法；从图论中的经典算法到用于字符匹配、计算集合和数论的特殊算法。本书第3版尤其增加了两章专门讨论van Emde Boas树（有用的数据结构之一）和多线程算法（日益重要的一个主题）。”　　——Daniel Spielman，耶鲁大学计算机科学和应用数学Henry Ford II教授

出版者的话


译者序


前言



第一部分　基础知识


第1章　算法在计算中的作用3


　1.1　算法3


　1.2　作为一种技术的算法6


　思考题8


　本章注记8


第2章　算法基础9


　2.1　插入排序9


　2.2　分析算法13


　2.3　设计算法16


　　2.3.1　分治法16


　　2.3.2　分析分治算法20


　思考题22


　本章注记24


第3章　函数的增长25


　3.1　渐近记号25


　3.2　标准记号与常用函数30


　思考题35


　本章注记36


第4章　分治策略37


　4.1　最大子数组问题38


　4.2　矩阵乘法的Strassen算法43


　4.3　用代入法求解递归式47


　4.4　用递归树方法求解递归式50


　4.5　用主方法求解递归式53


　*4.6　证明主定理55


　　4.6.1　对b的幂证明主定理56


　　4.6.2　向下取整和向上取整58


　思考题60


　本章注记62


第5章　概率分析和随机算法65


　5.1　雇用问题65


　5.2　指示器随机变量67


　5.3　随机算法69


　*5.4　概率分析和指示器随机变量的进一步使用73


　　5.4.1　生日悖论73


　　5.4.2　球与箱子75


　　5.4.3　特征序列76


　　5.4.4　在线雇用问题78


　思考题79


　本章注记80


第二部分　排序和顺序统计量


第6章　堆排序84


　6.1　堆84


　6.2　维护堆的性质85


　6.3　建堆87


　6.4　堆排序算法89


　6.5　优先队列90


　思考题93


　本章注记94


第7章　快速排序95


　7.1　快速排序的描述95


　7.2　快速排序的性能97


　7.3　快速排序的随机化版本100


　7.4　快速排序分析101


　　7.4.1　最坏情况分析101


　　7.4.2　期望运行时间101


　思考题103


　本章注记106


第8章　线性时间排序107


　8.1　排序算法的下界107


　8.2　计数排序108


　8.3　基数排序110


　8.4　桶排序112


　思考题114


　本章注记118


第9章　中位数和顺序统计量119


　9.1　最小值和最大值119


　9.2　期望为线性时间的选择算法120


　9.3　最坏情况为线性时间的选择算法123


　思考题125


　本章注记126


第三部分　数据结构


第10章　基本数据结构129


　10.1　栈和队列129


　10.2　链表131


　10.3　指针和对象的实现134


　10.4　有根树的表示137


　思考题139


　本章注记141


第11章　散列表142


　11.1　直接寻址表142


　11.2　散列表143


　11.3　散列函数147


　　11.3.1　除法散列法147


　　11.3.2　乘法散列法148


　　*11.3.3　全域散列法148


　11.4　开放寻址法151


　*11.5　完全散列156


　思考题158


　本章注记160


第12章　二叉搜索树161


　12.1　什么是二叉搜索树161


　12.2　查询二叉搜索树163


　12.3　插入和删除165


　12.4　随机构建二叉搜索树169


　思考题171


　本章注记173


第13章　红黑树174


　13.1　红黑树的性质174


　13.2　旋转176


　13.3　插入178


　13.4　删除183


　思考题187


　本章注记191


第14章　数据结构的扩张193


　14.1　动态顺序统计193


　14.2　如何扩张数据结构196


　14.3　区间树198


　思考题202


　本章注记202


第四部分　高级设计和分析技术


第15章　动态规划204


　15.1　钢条切割204


　15.2　矩阵链乘法210


　15.3　动态规划原理215


　15.4　最长公共子序列222


　15.5　最优二叉搜索树226


　思考题231


　本章注记236


第16章　贪心算法237


　16.1　活动选择问题237


　16.2　贪心算法原理242


　16.3　赫夫曼编码245


　*16.4　拟阵和贪心算法250


　*16.5　用拟阵求解任务调度问题253


　思考题255


　本章注记257


第17章　摊还分析258


　17.1　聚合分析258


　17.2　核算法261


　17.3　势能法262


　17.4　动态表264


　　17.4.1　表扩张265


　　17.4.2　表扩张和收缩267


　思考题270


　本章注记273


第五部分　高级数据结构


第18章　B树277


　18.1　B树的定义279


　18.2　B树上的基本操作281


　18.3　从B树中删除关键字286


　思考题288


　本章注记289


第19章　斐波那契堆290


　19.1　斐波那契堆结构291


　19.2　可合并堆操作292


　19.3　关键字减值和删除一个结点298


　19.4　最大度数的界300


　思考题302


　本章注记305


第20章　van Emde Boas树306


　20.1　基本方法306


　20.2　递归结构308


　　20.2.1　原型van Emde Boas结构310


　　20.2.2　原型van Emde Boas结构上的操作311


　20.3　van Emde Boas树及其操作314


　　20.3.1　van Emde Boas树315


　　20.3.2　van Emde Boas树的操作317


　思考题322


　本章注记323


第21章　用于不相交集合的数据结构324


　21.1　不相交集合的操作324


　21.2　不相交集合的链表表示326


　21.3　不相交集合森林328


　*21.4　带路径压缩的按秩合并的分析331


　思考题336


　本章注记337


第六部分　图算法


第22章　基本的图算法341


　22.1　图的表示341


　22.2　广度优先搜索343


　22.3　深度优先搜索349


　22.4　拓扑排序355


　22.5　强连通分量357


　思考题360


　本章注记361


第23章　最小生成树362


　23.1　最小生成树的形成362


　23.2　Kruskal算法和Prim算法366


　思考题370


　本章注记373


第24章　单源最短路径374


　24.1　Bellman-Ford算法379


　24.2　有向无环图中的单源最短路径问题381


　24.3　Dijkstra算法383


　24.4　差分约束和最短路径387


　24.5　最短路径性质的证明391


　思考题395


　本章注记398


第25章　所有结点对的最短路径问题399


　25.1　最短路径和矩阵乘法400


　25.2　Floyd-Warshall算法404


　25.3　用于稀疏图的Johnson算法409


　思考题412


　本章注记412


第26章　最大流414


　26.1　流网络414


　26.2　Ford-Fulkerson方法418


　26.3　最大二分匹配428


　*26.4　推送-重贴标签算法431


　*26.5　前置重贴标签算法438


　思考题446


　本章注记449


第七部分　算法问题选编


第27章　多线程算法453


　27.1　动态多线程基础454


　27.2　多线程矩阵乘法465


　27.3　多线程归并排序468


　思考题472


　本章注记476


第28章　矩阵运算478


　28.1　求解线性方程组478


　28.2　矩阵求逆486


　28.3　对称正定矩阵和最小二乘逼近489


　思考题493


　本章注记494


第29章　线性规划495


　29.1　标准型和松弛型499


　29.2　将问题表达为线性规划504


　29.3　单纯形算法507


　29.4　对偶性516


　29.5　初始基本可行解520


　思考题525


　本章注记526


第30章　多项式与快速傅里叶变换527


　30.1　多项式的表示528


　30.2　DFT与FFT531


　30.3　高效FFT实现536


　思考题539


　本章注记541


第31章　数论算法543


　31.1　基础数论概念543


　31.2　最大公约数547


　31.3　模运算550


　31.4　求解模线性方程554


　31.5　中国余数定理556


　31.6　元素的幂558


　31.7　RSA公钥加密系统561


　*31.8　素数的测试565


　*31.9　整数的因子分解571


　思考题574


　本章注记576


第32章　字符串匹配577


　32.1　朴素字符串匹配算法578


　32.2　Rabin-Karp算法580


　32.3　利用有限自动机进行字符串匹配583


　*32.4　Knuth-Morris-Pratt算法588


　思考题594


　本章注记594


第33章　计算几何学595


　33.1　线段的性质595


　33.2　确定任意一对线段是否相交599


　33.3　寻找凸包604


　33.4　寻找最近点对610


　思考题613


　本章注记615


第34章　NP完全性616


　34.1　多项式时间619


　34.2　多项式时间的验证623


　34.3　NP完全性与可归约性626


　34.4　NP完全性的证明633


　34.5　NP完全问题638


　　34.5.1　团问题638


　　34.5.2　顶点覆盖问题640


　　34.5.3　哈密顿回路问题641


　　34.5.4　旅行商问题644


　　34.5.5　子集和问题645


　思考题647


　本章注记649


第35章　近似算法651


　35.1　顶点覆盖问题652


　35.2　旅行商问题654


　　35.2.1　满足三角不等式的旅行商问题654


　　35.2.2　一般旅行商问题656


　35.3　集合覆盖问题658


　35.4　随机化和线性规划661


　35.5　子集和问题663


　思考题667


　本章注记669


第八部分　附录：数学基础知识


附录A　求和672


　A.1　求和公式及其性质672


　A.2　确定求和时间的界674


　思考题678


　附录注记678


附录B　集合等离散数学内容679


　B.1　集合679


　B.2　关系682


　B.3　函数683


　B.4　图685


　B.5　树687


　　B.5.1　自由树688


　　B.5.2　有根树和有序树689


　　B.5.3　二叉树和位置树690


　思考题691


　附录注记692


附录C　计数与概率693


　C.1　计数693


　C.2　概率696


　C.3　离散随机变量700


　C.4　几何分布与二项分布702


　*C.5　二项分布的尾部705


　思考题708


　附录注记708


附录D　矩阵709


　D.1　矩阵与矩阵运算709


　D.2　矩阵的基本性质712


　思考题714


　附录注记715


参考文献716


索引732

精彩书摘

证明每个结点的秩从0开始，并且只有执行了LINK操作，它才会增加。因为最多有n—1个UNION操作，所以同样最多有n—1个LINK操作。因为每个LINK操作或者不改变任何的秩，或者将某结点的秩加1，所以所有的秩最大为n—1。　　引理21.6提供了一个关于结点秩的较弱的界。事实上，每个结点的秩最大为（lgn）（见练习21.4—2）。然而，引理21.6的这个较松的界已足够满足我们的要求。　　时间界的证明我们将利用摊还分析中的势方法（见17.3节）来证明O（ma（n））的时间界。在进行摊还分析时，为了方便起见，我们假设不调用UNION操作，而是调用LINK操作。也就是说，因为LINK过程的参数是指向两个根的指针，故我们独立使用相应的FIND—SET操作。下面的引理说明即使因调用UNION而导致额外的FIND—SET操作，其渐近运行时间仍然保持不变。