1.6 概率与数理统计基础

1.大数定律与中心极限定理:

(0)随机变量序列X_{1},X_{2},...,X_{n}是n个不同的随机变量序列,每一个随机变量都有自己的分布,它们可能相同,也可能不同。

(1)依概率收敛:数学的标准定义是:

X_{1},X_{2},...,X_{n}是随机变量序列,X是一个随机变量,如果对于任意给定的正数\epsilon,有\lim_{n\rightarrow \infty } P \begin{Bmatrix} { |X_n-X|<\epsilon } \end{Bmatrix}=1或者\lim_{n\rightarrow \infty } P \begin{Bmatrix} { |X_n-X|\geqslant \epsilon } \end{Bmatrix}=0,则称随机变量序列X_{1},X_{2},...,X_{n}以概率收敛于X。在定义中,其实默认了每一个随机变量X_i都是独立同分布的,它们可以认为是对于总体的n次观测值,X就是理想中的真值。当我们观测足够多时(n趋于无穷大),我们的观测值与真实值的差异会越来越小的这一个事件的概率是1(注意到,概率为1的事件并不是必然事件,所以当然,这也并不是必然事件)。在切比雪夫不等式的基础上,可以得到大数定律,大数定律这里就不放了。其实就是告诉我们,随着观测次数的增加,观测值的平均与真值的差异越来越小这一事件是很有把握的。

(2)中心极限定理:

相互独立的随机变量序列X_{1},X_{2},...,X_{n},假定它们的数学期望和方差均存在,则对它们的前n项和\sum_{i=1}^{n}X_i=X_1+...+X_n,

E(\sum_{i=1}^{n}X_i)=\sum_{i=1}^{n}E(X_i),D(\sum_{i=1}^{n}X_i)=\sum_{i=1}^{n}D(X_i)> 0,将\sum_{i=1}^{n}X_i标准化,得到Z_n=\frac{\sum_{i=1}^{n}X_i-\sum_{i=1}^{n}E(X_i)}{\sqrt(\sum_{i=1}^{n}D(x_i))},如果Z_n符合标准正态分布,则称X_{1},X_{2},...,X_{n}服从中心极限定理。在定义中,每一个X_i默认是不同分布的。

\sum_{i=1}^{n}X_i=X_1+...+X_n表明的意思是:有n个不同因素导致的最后结果,每一个因素是一个随机变量X_i,进行求和就是所有的这些因素共同决定了一个结果,这个结果就是\sum_{i=1}^{n}X_i,也是一个随机变量。中心极限定理阐明的就是,许多相互独立的微小
因素Xi的叠加总和所形成的结果是符合正态分布的。.比较常用的性质有:

a.如果X\sim N(\mu,\sigma ^2),,那么:\sum_{i=1}^{n}X_i \sim N(n\mu,n\sigma^2)\frac{1}{n}\sum_{i=1}^{n}X_i \sim N(\mu,\frac{\sigma^2}{n}).

b.如果对于独立同分布的随机变量X_i满足E(X_i)=\mu,D(X_i)=\sigma^2,那么P\begin{Bmatrix} x_1<\sum_{i=1}^{n}X_i<x_2 \end{Bmatrix}\approx \Phi (\frac{x_2-n\mu}{\sqrt(n)\sigma})-\Phi (\frac{x_1-n\mu}{\sqrt(n)\sigma})

2.统计概念与抽样分布

我们需要研究对象的全体就是总体,在机器学习中,我们的目的就是找出“总体”所符合的规律,总体是客观的存在。

总体虽然说是对象,但是我们对总体的某一特征所感兴趣,这些特征要叫做总体。

在所研究的特征中,我们对总体有限次的观测并记录下来的数据就是样本,样本应该具有代表性和独立性,它们就是简单随机样本。

 (0) 设有总体X服从某种分布,总体均值(总体一阶原点矩)和总体方差(总体二阶中心矩)存在,记为E(X)=\mu,D(X)=\sigma^2

X_1,X_2,...X_n是来自总体X的一个样本(独立同分布),则样本均值定义为\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i,     样本方差定义为:S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2。样本均值和样本方差都是随机变量。有如下性质:

a.E(\bar{X})=\mu = E(X)

b.D(\bar{X})=\frac{\sigma^2}{n}=\frac{D(X)}{n}(说明样本均值关于数学期望的集中程度远比总体的集中程度高)

c.E(S^2)=\sigma^2=D(X)

(1) 三大抽样分布(基于正态分布构造出来)

a.\chi ^2分布:如果X\sim N(0,1),那么\chi ^2=\sum_{i=1}^{n}X_i^2 \sim \chi^2(n)

b.t分布:如果X\sim N(0,1)Y \sim \chi^2(n),那么T = \frac{X}{\sqrt{Y/n}}\sim t(n)

c.F分布:如果X \sim \chi^2(n_1),Y \sim \chi^2(n_2),那么F =\frac{X/n_1}{Y/n_2} \sim F(n_1,n_2)

d.在X\sim N(\mu,\sigma^2)的条件下,\bar{X},S^2相互独立(当总体不是正态总体时,结论一般不成立)

3.参数估计

当随机变量的分布已知,但是分布对应的参数未知,要用观测的样本尽可能的“猜测”什么样的参数产生了这样的样本。

参数估计分为点估计和区间估计。

(1)点估计:

a.矩估计法:以样本矩作为相应的总体矩的估计,以样本矩作为相应的总体矩的同一函数估计。

流程如下:(假设需要估计k个参数)

计算总体本的k阶原点矩E(X^k)=h(\theta)
将左边替换为对应的样本k阶原点矩,右边替换为\hat{\theta}
解出:\hat{\theta}=h^{-1}(样本矩)

b.极大似然估计:(MLE)

流程如下:

构造似然函数L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)或者L(\theta)=\prod_{i=1}^{n}f(x_i;\theta)
取对数lnL(\theta)=\sum_{i=1}^{n}lnf(x_i;\theta)

求偏导,并令偏导为0,得驻点,一般情况下,得到\hat\theta.

c.对于点估计的优良性判断:

无偏性:E(\hat\theta)=\theta   要求偏差的平均值(系统误差)为0

有效性:arg\min_{\hat\theta} \ D(\hat\theta)

一致性:要求随着样本数目n增大,偏差以概率收敛。即\lim_{n\rightarrow \infty }P\begin{Bmatrix} |\hat\theta_n-\theta|< \epsilon \end{Bmatrix}=1

常用的结论:样本均值\bar{X}总体均值\mu的无偏一致估计量。样本方差S^2总体方差\sigma^2的无偏一致估计量。

4 假设检验

一个引例:已知一个暗箱中有100个白色与黑色球,不知各有多少个。

现有人猜测其中有95个白色球,是否能相信他的猜测呢?

他相当于提出了假设H_0:有95个白色球,5个黑色球。在他的假设H_0下,P(A)=0.05, A={任取一球是黑球}。

P(H_0)表示假设H_0为真的概率。现在,随意从中抽出一个球, 发现是黑球。而因为在H_0假设下,取得黑球的概率非常小,又因为在一次小概率事件原理,所以拒绝这个假设。

对于这个例子,我的理解如下:

从中抽取一个黑球后,我们想要知道关于H_0是否为真的后验概率,即P(H_0|A)

P(H_0|A)=\frac{P(H_0,A)}{P(A)}=\frac{P(H_0)P(A|H_0)}{P(A)},其中,P(A|H_0)表示在假设H_0为真的条件下,A发生的概率。继续推导,得到:

P(H_0|A)=\frac{P(H_0)P(A|H_0)}{P(A)}=\frac{P(H_0)P(A|H_0)}{P(A|H_0)P(H_0)+P(A|\bar{H_0})P(\bar{H_0})}=\frac{1}{1+\frac{P(A|\bar{H_0})P(\bar{H_0})}{P(A|H_0)P(H_0)}},其中P(\bar{H_0})表示H_0为假的概率。

因为我们事先并不知道P(H_0),P(\bar{H_0})的概率如何,不妨让它们各半,可以清楚的看到P(H_0|A)P(A|H_0)是相同增长的,即:

P(A|H_0)比较小的时候,即在假设H_0为真的情况下,我们的验证事件A出现的概率越小,那么后验概率P(H_0|A)也就越小。

所以H_0也就更有可能是假的。

 

 

 

 

 

 

 

 

记到这里就结束了,以上就是在概率论与数理统计结课时所做的笔记,发现学的东西不多。

以上这些东西,很多都是从教材上抄录出来的,感觉对机器学习用处不大。等有空把信息论的内容和概率论中其他相关知识也补充到这里吧

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值