机器学习入门--唤起你的数学记忆

一、概率论与统计学

什么是中心极限定理?
中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理;(这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件;)(例如n重伯努利试验中,事件A出现的次数渐近于正态分布的问题;)
中心极限定理可用两句话描述:

  1. 样本平均值约等于总体平均值;
  2. 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布;
    拉普拉斯中心极限定理,是关于二项分布渐近趋于正态分布的极限定理;(也称二项分布的中心极限定理)
    通过中心极限定理的正态分布,就能计算出某个样本属于总体的概率是多少,如果概率非常低,我们就能自信满满地说该样本不属于该群体;这也是统计概率中假设检验的原理;

什么是大数定理?
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律;
(在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然;)大数定律分为弱大数定律和强大数定律;第一个大数定理是伯努利大数定律;(属于弱大数定律的范畴)(其他包括切比雪夫大数定律,辛钦大数定律,泊松大数定律,马尔科夫大数定律等等;)

https://blog.csdn.net/xiuxin121/article/details/78756143 (中心极限定理与大数定理理解)
https://blog.csdn.net/sinat_25873421/article/details/80890430 (中心极限定理与大数定律的区别)

什么是辛钦大数定律?(so easy)
简单随机样本的原点矩依概率收敛到相应的总体原点矩;这一定律使算术平均值的法则有了理论依据;

什么是伯努利大数定律?
伯努利大数定律是辛钦大数定律的特殊情况,当Xi为服从0-1分布的随机变量时,辛钦大数定律就是伯努利大数定律;

什么是T检验?
T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布;
T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
T检验与f检验、卡方检验等并列;
https://www.jianshu.com/p/46d9b111dffc

什么是F检验?
F检验(F-test),别名叫做联合假设检验(joint hypotheses test),也称方差比率检验、方差齐性检验;通常是用来分析用了超过一个参数的统计模型;(在两样本t检验中要用到F检验)它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验;
https://www.cnblogs.com/nxld/p/6185433.html (T检验与F检验的区别)

什么是Z检验?(也叫U检验)
Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法;
它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验;当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验;

什么是卡方检验?
卡方检验就是统计样本的观测值与理论推断值之间的偏离程度;卡方值越大,偏差越大;反之偏差越小,若完全相等,卡方值就为0,表明理论值完全符合;卡方检验包括两个率或两个构成比比较的卡方检验,多个率或多个构成比比较的卡方检验以及分类资料的相关分析等;
https://www.jianshu.com/p/807b2c2bfd9b (结合日常生活的例子,了解什么是卡方检验)

什么是单侧检验、双侧检验?
双侧检验:如果检验的目的是检验抽样的样本统计量与假设参数的差数是否过大(无论是正方向还是负方向),就把风险平分在右侧和左侧;
(比如显著性水平为0.05,即概率曲线左右两侧各占,即0.025;)
单侧检验:这种检验只注意估计值是否偏高或偏低。如只注意偏低,则临界值在左侧,称左侧检验;如只注意偏高,则临界值在右侧,称右侧检验;

什么是假设检验(即显著性检验)?(重要)
假设检验是推论统计中用于检验统计假设的一种方法,而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说;
(而其中欲检验其正确性的为零假设;零假设通常由研究者决定,反映研究者对未知参数的看法;)
(相对于零假设的其他有关参数之论述是备择假设;即它和零假设是对立的;)
假设检验的种类包括:t检验,Z检验,卡方检验,F检验、U检验等;
设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生;
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性,如可能性小,则认为假设不成立,若可能性大,则不能认为假设不成立;
如果假设中含有目标未知参量,则是复合假设检验;
(注意:无论接受或拒绝检验假设,都有判断错误的可能性;)
检验水准也称显著性水准,它指无效假设H0为真,但被错误地拒绝的一个小概率值,常用的检验水准α有0.01、0.05、0.10;
https://blog.csdn.net/andy_shenzl/article/details/81453509 (统计学基础–假设检验)

什么是零假设、备择假设?
零假设的内容一般是希望证明其错误的假设;与零假设相对的是备择假设;

什么是无偏检验?
无偏检验是第一类错误不大于检验功效的统计检验,无偏检验是指在备择假设的各种参数值之间“无偏”,任何检验问题都存在水平为α的无偏检验;

什么是参数估计?(重要)
参数估计是从总体中抽取的随机样本来估计总体分布中未知参数的过程;
从估计形式,可分为点估计与区间估计;从构造估计量的方法,有矩估计、最小二乘估计、似然估计、贝叶斯估计等;
参数估计要解决两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度

什么是点估计和区间估计?
点估计(point estimation)是依据样本估计总体分布中所含的未知参数或未知参数的函数;(如数学期望、方差和相关系数等)
点估计包括矩估计法、最大似然估计法、最小二乘法、贝叶斯估计法等;
区间估计(interval estimation)是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计;
(区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到;)
(目的是求置信区间,方法有:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论;)
(评价置信区间有两个因素:精度(即置信区间的长度)、置信度;注意:精度和置信度此消彼长,一个越大,另一个就越小;)
简单说,估计总体的参数的值就是点估计,估计总体的参数的区间就是区间估计

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值