概率统计面试题

最新推荐文章于 2025-01-20 14:37:13 发布

路过的风666

最新推荐文章于 2025-01-20 14:37:13 发布

阅读量1.1k

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/m0_46246301/article/details/128124103

版权

数据分析专栏收录该内容

12 篇文章

订阅专栏

概率

条件概率：已知A事件发生，想要在此基础上求出B事件发生的概率时，需要考虑构建条件概率P(A|B)，即A事件发生条件下B事件发生的概率。条件概率的计算公式为：P(A|B)=P(AB)/P(B)。

概率和似然:

概率：给定某⼀参数值，求某⼀结果的可能性的函数。

例如，抛⼀枚匀质硬币，抛10次，6次正⾯向上的可能性多⼤？解读：“匀质硬币”，表明参数值是0.5，“抛10次，六次正⾯向上”这是⼀个结果，概率（probability)是求这⼀结果的可能性。
似然：给定某⼀结果，求某⼀参数值的可能性的函数。

例如，抛⼀枚硬币，抛10次，结果是6次正⾯向上，其是匀质的可能性多⼤？解读：“抛10次，结果是6次正⾯向上”，这是⼀个给定的结果，问“匀质”的可能性，即求参数值=0.5的可能性。

实例面试题：

抛硬币直到连续两次出现正面的概率，求扔的期望次数？

假设期望次数为X，有三种情况：1.第一次为反面，则期望需要X+1次；2.前两次都为反面，则期望需要X+2次；3.前两次均为正面，结束。建立方程；解得X=6。

X = 0.5 * (X+1) + 0.5 * 0.5 * (X+2) + 0.5 * 0.5 * 2
50个红球50个白球放入两个黑箱，怎么分配摸到红球概率最大?

1个红球放在一个箱子，其余99个球放在另一个箱子里。

P（拿到红球）=0.5+0.5（49/99）≈ 0.75（74/99）
一个班20个人，至少两个人同一天生日的概率？

20个人可能的生日组合是365×365×365×……×365(20)个(a)；

20个人生日都不重复的组合是365×364×363×……×346(20)个(b)；

20个人生日有重复的概率是1-b/a。这里，20个人生日全不相同的概率是b/a=0.59，因此50个人生日有重复的概率是1-0.59＝0.41
两个孩子，已知一孩子是男孩，另一孩子是男孩的概率？

1/2或者1/3。

1/2：两者为独立事件，互不影响，故为1/2。

1/3：如果区分顺序两个孩子可能为：男男，男女，女男，女女；已知其一为男孩，则可能为：男男，男女，女男；男男的概率为1/3。
两个人相约在8点到9点时间段见面，彼此等15分钟，见不到人就走。两人在8点至9点任一时刻到达目的地，求两人能见面的概率？

几何概型，绘制正方形[0,60,0,60]，|x-y|<=15，求该面积占正方形的面积的比例 = 1-45 * 45/60 * 60 = 7/16

假设检验

概念
1. 一种判断样本与样本、样本与总体的差异是由抽样误差引起还是由本质差别造成的统计推断方法。
2. 对总体参数提出假设值，原假设与备择假设，通过样本构造检验统计量，最后计算检验值或P值与临界值或显著性水平进行比较，得出拒绝或接受原假设的结论
基本思想：概率性质的反证法

根据所考察问题的要求提出原假设和备择假设，为了检验原假设是否正确，先假定原假设是正确的情况下，构造一个小概率事件，然后根据抽取的样本去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了，我们就怀疑原假设的正确性，从而拒绝原假设；反之，接受原假设
基本方法

常用的假设检验类型：Z检验、t检验、卡方检验、F检验

检验方式：单侧/双侧检验
1. 分析问题、确定原假设和备择假设。
2. 确定适当的检验统计量，并计算其数值。
3. 选择哪个统计量作为检验统计量需要考虑一些因素，例如进行检验的样本量多还是少，总体标准差是已知还是未知等等。
4. 最后看这个数据是落在接受域还是拒绝域，如果落在接受域则接受原假设，如果落在拒绝域则接受备择假设。
判断标准
1. 显著性水平α：发生小概率事件的概率（0.05/0.01）
2. p值：由无效假设所规定的总体做随机抽样，获得大于及等于（或等于及小于）现有统计量的概率。
3. 置信区间：由样本统计量所构造的总体参数的估计区间。
推论
1. 若P>α，就没有理由怀疑H0的真实性，结论为不拒绝H0，不否定此样本是来自于该总体的结论，也即差别无显著意义。
2. 若P≤α，则拒绝H0，接受H1，也就是这些统计量来自不同的总体其差别不能仅由抽样误差来解释，结论为差别有显著性意义。
延申面试题
1. 参数估计和假设检验分别是什么？区别在哪里？
  1. 参数估计和假设检验都是样本去估计总体，都是建立在概率基础上的统计，可以相互转换
  2. 区别：
    1. 参数估计是用样本统计量估计总体参数的方法，以置信区间(大概率)估计总体参数。
    2. 假设检验是先对总体参数提出一个假设，然后利用样本信息去检验这个假设是否成立。利用小概率事件是否发生来判断假设是否成立。
2. 说一下假设检验的显著性水平？
  
  假设检验是利用“小概率事件”原理做出统计判断的，而“小概率事件”是否发生与一次抽样所得的样本及所选择的显著性水平α有关，由于样本的随机性及选择显著性水平α的不同，因此检验结果与真实情况也可能不吻合，从而假设检验是可能犯错误的。
  
  一般地，假设检验可能犯的错误有如下两类：
  1. 弃真：当假设H0正确时，拒绝假设H0。称此为第一类错误，犯此类错误的概率恰好就是“小概率事件”发生的概率α，即P{拒绝H0/H0为真}=α；
  2. 取伪：当假设H0不正确，接受H0。称此为第二类错误，记β为犯第二类错误的概率，即P{接受H0/H0不真}=β。
  我们通常希望犯这两类错误的概率都很小。但当样本容量n固定时，α、β不能同时都小，α变小时β就变大，而β变小时α就变大。只有当样本容量n增大时，才有可能使两者变小。在实际应用中，一般原则是控制犯第一类错误的概率，即给定α，然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验，α就是显著性水平。
3. 假设检验相关的第一类错误、第二类错误，怎么降低第一类错误，如何同时降低第一类和第二类错误？
  - 第一类错误：弃真错误，即原假设为真却被拒绝的概率；
  - 第二类错误：取伪错误，即原假设为假却接受了原假设的概率。
    
    当样本量不变时，降低其中一类错误，则必然会使另一类错误增大，所以在实验中一般会优先控制犯第一类错误的概率，一般犯第一类错误的概率不超过5%,即当原假设为真时，接受原假设的概率超过95%。通过增加样本量，可以同时降低犯第一类错误和第二类错误的概率，因为用样本去估计总体时，样本量越大，样本和总体之间的差异就会越小