概率
条件概率:已知A事件发生,想要在此基础上求出B事件发生的概率时,需要考虑构建条件概率P(A|B),即A事件发生条件下B事件发生的概率。条件概率的计算公式为:P(A|B)=P(AB)/P(B)。
概率和似然:
-
概率:给定某⼀参数值,求某⼀结果的可能性的函数。
例如,抛⼀枚匀质硬币,抛10次,6次正⾯向上的可能性多⼤? 解读:“匀质硬币”,表明参数值是0.5,“抛10次,六次正⾯向上”这是⼀个结果,概率(probability)是求这⼀结果的可能性。
-
似然:给定某⼀结果,求某⼀参数值的可能性的函数。
例如,抛⼀枚硬币,抛10次,结果是6次正⾯向上,其是匀质的可能性多⼤? 解读:“抛10次,结果是6次正⾯向上”,这是⼀个给定的结果,问“匀质”的可能性, 即求参数值=0.5的可能性。
实例面试题:
-
抛硬币直到连续两次出现正面的概率,求扔的期望次数?
假设期望次数为X,有三种情况:1.第一次为反面,则期望需要X+1次;2.前两次都为反面,则期望需要X+2次;3.前两次均为正面,结束。建立方程;解得X=6。
X = 0.5 * (X+1) + 0.5 * 0.5 * (X+2) + 0.5 * 0.5 * 2
-
50个红球50个白球放入两个黑箱,怎么分配摸到红球概率最大?
1个红球放在一个箱子,其余99个球放在另一个箱子里。
P(拿到红球)=0.5+0.5(49/99)≈ 0.75(74/99)
-
一个班20个人,至少两个人同一天生日的概率?
20个人可能的生日组合是365×365×365×……×365(20)个(a);
20个人生日都不重复的组合是365×364×363×……×346(20)个(b);
20个人生日有重复的概率是1-b/a。 这里,20个人生日全不相同的概率是b/a=0.59,因此50个人生日有重复的概率是1-0.59=0.41
-
两个孩子,已知一孩子是男孩,另一孩子是男孩的概率?
1/2或者1/3。
1/2:两者为独立事件,互不影响,故为1/2。
1/3:如果区分顺序两个孩子可能为:男男,男女,女男,女女;已知其一为男孩,则可能为:男男,男女,女男;男男的概率为1/3。
-
两个人相约在8点到9点时间段见面,彼此等15分钟,见不到人就走。两人在8点至9点任一时刻到达目的地,求两人能见面的概率?
几何概型,绘制正方形[0,60,0,60],|x-y|<=15,求该面积占正方形的面积的比例 = 1-45 * 45/60 * 60 = 7/16
假设检验
-
概念
- 一种 判断样本与样本、样本与总体的差异是由抽样误差引起还是由本质差别造成 的统计推断方法。
- 对总体参数提出假设值,原假设与备择假设,通过样本构造检验统计量,最后计算检验值或P值与临界值或显著性水平进行比较,得出拒绝或接受原假设的结论
-
基本思想:概率性质的反证法
根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了,我们就怀疑原假设的正确性,从而拒绝原假设;反之,接受原假设
-
基本方法
常用的假设检验类型:Z检验、t检验、卡方检验、F检验
检验方式:单侧/双侧检验
- 分析问题、确定原假设和备择假设。
- 确定适当的检验统计量,并计算其数值。
- 选择哪个统计量作为检验统计量需要考虑一些因素,例如进行检验的样本量多还是少,总体标准差是已知还是未知等等。
- 最后看这个数据是落在接受域还是拒绝域,如果落在接受域则接受原假设,如果落在拒绝域则接受备择假设。
-
判断标准
- 显著性水平α:发生小概率事件的概率(0.05/0.01)
- p值:由无效假设所规定的总体做随机抽样,获得大于及等于(或等于及小于)现有统计量的概率。
- 置信区间:由样本统计量所构造的总体参数的估计区间。
-
推论
- 若P>α,就没有理由怀疑H0的真实性,结论为不拒绝H0,不否定此样本是来自于该总体的结论,也即差别无显著意义。
- 若P≤α,则拒绝H0,接受H1,也就是这些统计量来自不同的总体其差别不能仅由抽样误差来解释,结论为差别有显著性意义。
-
延申面试题
-
参数估计和假设检验分别是什么?区别在哪里?
- 参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
- 区别:
- 参数估计是用样本统计量估计总体参数的方法,以置信区间(大概率)估计总体参数。
- 假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立。利用小概率事件是否发生来判断假设是否成立。
-
说一下假设检验的显著性水平?
假设检验是利用“小概率事件”原理做出统计判断的,而“小概率事件”是否发生与一次抽样所得的样本及所选择的显著性水平α有关,由于样本的随机性及选择显著性水平α的不同,因此检验结果与真实情况也可能不吻合,从而假设检验是可能犯错误的。
一般地,假设检验可能犯的错误有如下两类:
- 弃真:当假设H0正确时,拒绝假设H0。称此为第一类错误,犯此类错误的概率恰好就是“小概率事件”发生的概率α,即P{拒绝H0/H0为真}=α;
- 取伪:当假设H0不正确,接受H0。称此为第二类错误,记β为犯第二类错误的概率,即P{接受H0/H0不真}=β。
我们通常希望犯这两类错误的概率都很小。但当样本容量n固定时,α、β不能同时都小,α变小时β就变大,而β变小时α就变大。只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验,α就是显著性水平。
-
假设检验相关的第一类错误、第二类错误,怎么降低第一类错误,如何同时降低第一类和第二类错误?
-
第一类错误:弃真错误,即原假设为真却被拒绝的概率;
-
第二类错误:取伪错误,即原假设为假却接受了原假设的概率。
当样本量不变时,降低其中一类错误,则必然会使另一类错误增大,所以在实验中一般会优先控制犯第一类错误的概率,一般犯第一类错误的概率不超过5%,即当原假设为真时,接受原假设的概率超过95%。 通过增加样本量,可以同时降低犯第一类错误和第二类错误的概率,因为用样本去估计总体时,样本量越大,样本和总体之间的差异就会越小
-
-
不定期补充ing!