数据分析之概率问题

伯努利分布、二项分布、泊松分布、几何分布

几何分布表示前k-1次都没有成功,第k次成功的概率。

第k次做某件事情,才取得第1次成功的概率,服从几何分布。

期望:E(X) = 1/p
方差:Var(X) = (1-p)/p^2
其中,p为每一次事件成功的概率

泊松分布是单位时间内随机时间发生的次数,某个时间范围内,发生某件事情x次的概率是多大

指数分布是连续概率分布,是独立随机时间发生的时间间隔

泊松分布:

  1. 如何验证是泊松分布?
    1) 发生的事件是独立事件。
    2) 在任何相同的时间范围内,某事件发生的概率相同。
    3) 求某个时间范围内,发生某事件k次的概率,服从泊松分布。
    PS: 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np,近似为样本均值。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。事实上,泊松分布正是由二项分布推导而来的。
  2. 期望:λ
    方差:λ
    其中,参数λ是单位时间(或单位面积)内随机事件的平均发生率。
    泊松分布适合于描述单位时间内随机事件发生的次数。


1、有一苹果,两个人抛硬币来决定谁吃这个苹果,先抛到正面者吃。问先抛的人先吃到苹果的概率是多少?

设先抛的人吃到的概率为p1,后抛的人吃到苹果的概率为p2,其中p1+p2=1,但是p2只有在p1没有吃到苹果的条件下p2才能吃到,即他们之间的关系是p2=1/2 * p1,因为p2的样本空间少了一半,所以解得p1 = 1/3

2、一条长度为l的线段,随机在其上选2个点,将线段分为3段,问这3个子段能组成一个三角形的概率是多少?1/4

3、一副扑克牌54张,现分成3等份每份18张,问大小王出现在同一份中的概率是多少?

4、杀人游戏,6个人互相投票,有一个人被其他5个人一起投死的概率是多少()?假设每个人都不会投自己,投其他每个人是等概率的

5、20个员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本,那么我们选出的4人都在不同排的概率为

6、8只球队,采用抽签的方式随机配对,组成4场比赛。假设其中有4只强队,那么出现强强对话(任意两只强队相遇)的概率是:

两种思路,平均分组和单队顺序匹配问题:

按照单队顺序匹配计算的话:

第一个人选择对手有7种可能,第二人选择对手有5种,第三个人选择有3种,剩余两个人为一组对手,共7*5*3

强强不做对手,有4*3*2*1种,(统计4支强队即可,只能与弱队匹配)

故有1-4*3*2*1/(7*5*3)=27/35

7、有一个箱子,N把钥匙,只有一把钥匙能打开箱子,现在拿钥匙去看箱子。问恰好第k次打开箱子的概率?

第k次打开箱子的前提是要保证前k-1次箱子都没有被打开,因此最终概率为1/N

8、两种描述分别对应哪种分类算法的评价标准?描述有多少比例的小偷被警察抓了?警察抓小偷,描述警察抓的人中有多少是小偷?

分别对应召回率,所有正例中被判定为正的概率;精确率,在判定为正例的情况中判断正确的比例

9、某国家非常重男轻女,若一户人家生了一个女孩,便再要一个,直到生下男孩为止,假设生男生女概率相等,请问平均每户人家有多少个女孩?

要求生到女孩,则之前一定是一直在生男孩,因此符合几何分布。生男孩的期望为1/p=2,因此每户人家平均有1个女孩

10、中关村电子城某卖手机的店铺给客人报价,如果按照底价500元(成本价)报出,那么客人就一定会选择在该店铺购买;价格每增加1元,客人流失的可能性增加1%。那么该店铺给客人报出的最优价格是?

只看单个客人,假设提价x元,那么收入为(500+x)*(1-0.01x)

其中利润为:(500+x)*(1-0.01x)-500(1-0.01x),化简后是关于x的二元一次方程,对称轴为x=50,

所以最优提价为50元,也就是最优价格为550

11、某公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。假设一年有365天,每个员工的生日都概率均等地分布在这365天里。那么,这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?

总工作时间的期望 = 概率 * 天数 *人数

其中一个员工过生日的概率为\frac{1}{365},工作的概率为\frac{364}{365} ,(必须没有人过生日,才工作)

n个员工中一天工作的概率为(\frac{364}{365})^{n}

所以n个员工365天工作的期望是(\frac{364}{365})^{n} *365n,求偏导求极值以后n=365时总工作时间期望值最大

12、硬币游戏:连续扔硬币,直到 某一人获胜,A获胜条件是先正后反,B获胜是出现连续两次反面,问AB游戏时A获胜概率是?

其中A获胜条件是只要出现正面,A迟早能赢,为什么呢,因为第一次假设是正面,第二次是反面则A赢,第二次是正面的话继续扔硬币,同理反正B不会赢,只会一直的抛下去直到A赢。其中B赢的概率是1/4,因此A获胜的概率为3/4

13、有4副相同的牌,每副牌有4张不同的牌.先从这16张牌中,随机选4张出来.然后,在这4张牌中随机选择一张牌,然后把抽出的一张放回3张中,再随机选择一张牌.与上次选出的牌一样的概率是、

分析思路就是看最后一张牌,如何和上一张牌一样的话分为两种情况,第一种就是上一张牌,概率为1/4,第二种的话和不是上一张牌但是花色一样,这样的话,因为同样花色的概率为3/15

1/4+3/4*3/15=2/5

14、小组赛,每个小组有5支队伍,互相之间打单循环赛,胜一场3分,平一场1分,输一场不得分,小组前三名出线。平分抽签。问一个队最少拿()分就有理论上的出线希望:

从后往前倒退即可,对于A而言,A得分为1分的话,说明输3场平1场,则3场赢得一定可以出线和A没什么关系

如果A得分为2分的话,说明平2场输2场,则赢2场的一定可以出线,而B,C而言如果ABC之间平局,ABC并列出线,因此A至少要有2分才有理论上的出线希望

15、老王有两个孩子,已知至少有一个孩子是在星期二出生的男孩。问:两个孩子都是男孩的概率是多大?

先按照两个孩子的四种可能的性别组合进行划分,然后在每种组合里看看满足有至少一个周二男孩的情况数目:

  • 姐妹俩:不用看了,不满足至少有一个周二男孩的条件。
  • 兄妹俩:那哥哥一定是周二出生的了,妹妹出生的星期数有7种可能。
  • 姐弟俩:弟弟一定是周二出生,姐姐出生的星期数有7种可能。
  • 兄弟俩:兄弟二人出生的星期数总共有7 * 7 = 49种可能,但其中有6 * 6 = 36种都不满足至少有一个人是周二出生的条件,因此实际上有49 - 36 = 13种可能。

因此,满足条件的情况(这里的情况是指综合考虑孩子的性别和出生星期数)总数为7 + 7 + 13 = 27。而其中有13中可能对应于两个孩子都是男孩。因此题目所求概率是13 / 27


还有一种解法是用贝叶斯公式,设A表示“至少有一个孩子是在星期二出生的男孩”,B表示“两个孩子都是男孩”,根据贝叶斯公式P(B|A)=P(B)*P(A|B)/P(A), 易知P(B)=1/4,P(A)不太好求,借助上面第一种方法的分析可以知道P(A)=27/196,而P(A|B)即在两个孩子都是男孩的情况下(7*7=49种情况)至少有一个孩子是在星期二出生的男孩的概率可以通过1-两个男孩都不是在星期二出生的概率(6*6/49)计算,为13/49,最后带入贝叶斯公式即可得到13/27

16、u、t、z检验

u检验:就是Z检验,主要针对大样本(一般是指大于30例的样本)进行统计分析,适用于正态分布的总体,方差齐,独立性

t 检验在总体方差未知、样本方差已知的情况使用主要是针对样本数小于30例的统计分析,适用条件:正态分布,方差齐,独立性

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值