1.大数定律与中心极限定理:
(0)随机变量序列是n个不同的随机变量序列,每一个随机变量都有自己的分布,它们可能相同,也可能不同。
(1)依概率收敛:数学的标准定义是:
设是随机变量序列,是一个随机变量,如果对于任意给定的正数,有或者,则称随机变量序列以概率收敛于X。在定义中,其实默认了每一个随机变量都是独立同分布的,它们可以认为是对于总体的n次观测值,X就是理想中的真值。当我们观测足够多时(n趋于无穷大),我们的观测值与真实值的差异会越来越小的这一个事件的概率是1(注意到,概率为1的事件并不是必然事件,所以当然,这也并不是必然事件)。在切比雪夫不等式的基础上,可以得到大数定律,大数定律这里就不放了。其实就是告诉我们,随着观测次数的增加,观测值的平均与真值的差异越来越小这一事件是很有把握的。
(2)中心极限定理:
相互独立的随机变量序列,假定它们的数学期望和方差均存在,则对它们的前n项和,
有,,将标准化,得到,如果符合标准正态分布,则称服从中心极限定理。在定义中,每一个默认是不同分布的。
而表明的意思是:有n个不同因素导致的最后结果,每一个因素是一个随机变量,进行求和就是所有的这些因素共同决定了一个结果,这个结果就是,也是一个随机变量。中心极限定理阐明的就是,许多相互独立的微小
因素Xi的叠加总和所形成的结果是符合正态分布的。.比较常用的性质有:
a.如果,那么:,.
b.如果对于独立同分布的随机变量满足,那么
2.统计概念与抽样分布
我们需要研究对象的全体就是总体,在机器学习中,我们的目的就是找出“总体”所符合的规律,总体是客观的存在。
总体虽然说是对象,但是我们对总体的某一特征所感兴趣,这些特征要叫做总体。
在所研究的特征中,我们对总体有限次的观测并记录下来的数据就是样本,样本应该具有代表性和独立性,它们就是简单随机样本。
(0) 设有总体服从某种分布,总体均值(总体一阶原点矩)和总体方差(总体二阶中心矩)存在,记为
是来自总体的一个样本(独立同分布),则样本均值定义为, 样本方差定义为:。样本均值和样本方差都是随机变量。有如下性质:
a.
b.(说明样本均值关于数学期望的集中程度远比总体的集中程度高)
c.
(1) 三大抽样分布(基于正态分布构造出来)
a.分布:如果,那么
b.t分布:如果,,那么
c.F分布:如果那么
d.在的条件下,相互独立(当总体不是正态总体时,结论一般不成立)
3.参数估计
当随机变量的分布已知,但是分布对应的参数未知,要用观测的样本尽可能的“猜测”什么样的参数产生了这样的样本。
参数估计分为点估计和区间估计。
(1)点估计:
a.矩估计法:以样本矩作为相应的总体矩的估计,以样本矩作为相应的总体矩的同一函数估计。
流程如下:(假设需要估计k个参数)
计算总体本的k阶原点矩 |
将左边替换为对应的样本k阶原点矩,右边替换为 |
解出:(样本矩) |
b.极大似然估计:(MLE)
流程如下:
构造似然函数或者 |
取对数 |
求偏导,并令偏导为0,得驻点,一般情况下,得到. |
c.对于点估计的优良性判断:
无偏性: 要求偏差的平均值(系统误差)为0
有效性:
一致性:要求随着样本数目n增大,偏差以概率收敛。即
常用的结论:样本均值是总体均值的无偏一致估计量。样本方差是总体方差的无偏一致估计量。
4 假设检验
一个引例:已知一个暗箱中有100个白色与黑色球,不知各有多少个。
现有人猜测其中有95个白色球,是否能相信他的猜测呢?
他相当于提出了假设:有95个白色球,5个黑色球。在他的假设下,P(A)=0.05, A={任取一球是黑球}。
记表示假设为真的概率。现在,随意从中抽出一个球, 发现是黑球。而因为在假设下,取得黑球的概率非常小,又因为在一次小概率事件原理,所以拒绝这个假设。
对于这个例子,我的理解如下:
从中抽取一个黑球后,我们想要知道关于是否为真的后验概率,即。
,其中,表示在假设为真的条件下,A发生的概率。继续推导,得到:
,其中表示为假的概率。
因为我们事先并不知道的概率如何,不妨让它们各半,可以清楚的看到与是相同增长的,即:
比较小的时候,即在假设为真的情况下,我们的验证事件出现的概率越小,那么后验概率也就越小。
所以也就更有可能是假的。
记到这里就结束了,以上就是在概率论与数理统计结课时所做的笔记,发现学的东西不多。
以上这些东西,很多都是从教材上抄录出来的,感觉对机器学习用处不大。等有空把信息论的内容和概率论中其他相关知识也补充到这里吧