统计学 分布篇 - Hypergeometric Distribution(超几何分布)

超几何分布: 是 离散随机分布的一种. 它描述的是  从 n 中 拿 k 个成功的事件的概率( 不放回, 不放回意味着该事件是非独立事件), 其中在 N 中一共有 K 个成功事件.  

n 为 样本数量, k 为样本中成功的概率

N为 事件的总数量(population), K为 在N中 事件的总数量.


note: 超几何分布和二项分布是相互对立的, 因为二项分布 处理的是独立随机事件, 但是超几何分布处理的是 非独立随机事件. 


什么情况下我们可以使用 超几何分布?

  1. 每次事件的结果都能被分类为两个排斥的种类 比如 过/不过  男/女   雇佣/不雇佣
  2. 事件每次发生的概率是不同的.

PMF( probability Mass Function ):  点击了解pmf
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当我们想要测试一个给定的类别是否富集在一个测试集中时,通常可以使用几何分布来进行检验。几何分布是一种离散概率分布,它描述了从一个有限种群中随机抽取固定数量的样本,其中包含有一个特定类别的样本的数量的分布。在这种情况下,我们可以使用几何分布来计算在一个测试集中观察到给定类别的数量的概率,假设该测试集是从一个更大的总体中随机抽取的。 以下是一个使用Python计算几何分布调整P值的示例代码,假设我们有一个2x2列联表,其中包含了我们想要测试的类别和另一个类别在两个不同的组中的数量: ```python from scipy.stats import hypergeom # 填写2x2列联表 a = 15 # 在测试组中属于我们想要测试的类别的样本数量 b = 85 # 在测试组中不属于我们想要测试的类别的样本数量 c = 5 # 在对照组中属于我们想要测试的类别的样本数量 d = 95 # 在对照组中不属于我们想要测试的类别的样本数量 # 计算几何分布调整P值 M = a + b + c + d # 总体大小 N = a + c # 属于我们想要测试的类别的样本总数 n = a + b # 在测试组中的样本总数 k = min(a, c) # 在测试组中属于我们想要测试的类别的样本数量的最小值 p_value = hypergeom.sf(k-1, M, N, n) # 计算单尾P值 adjusted_p_value = p_value * 2 # 双尾P值 = 单尾P值 * 2 print(f"Adjusted P value: {adjusted_p_value:.4f}") ``` 在上面的代码中,我们使用了`scipy.stats`库中的`hypergeom`函数来计算几何分布的P值。我们首先定义了2x2列联表中每个单元格的计数,然后使用这些计数计算几何分布调整P值。具体而言,我们计算了属于我们想要测试的类别的样本数量的最小值,然后使用`hypergeom.sf()`函数计算在给定总体大小、属于我们想要测试的类别的样本总数、在测试组中的样本总数和计算出的最小值下,观察到给定数量或更少的属于我们想要测试的类别的样本的概率。最后,我们将计算出的单尾P值乘以2以计算双尾P值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值