#统计分析-数理统计与参数估计

最新推荐文章于 2021-01-12 06:37:31 发布

Pysamlam

最新推荐文章于 2021-01-12 06:37:31 发布

阅读量343

点赞数

断更了一段时间咯，最近私人事情有点多，也因此耽误了一会儿，今天继续更新哈～

今天讲一下数理统计以及参数估计，这一个主题的内容其实很多的，一篇的篇幅肯定是讲不完的，这篇只能说是简单介绍一些比较常用以及重要的概念的，大家看看咯～

0?wx_fmt=jpeg

（一）概率统计与机器学习

首先我们来分析概率与统计的区别。概率计算的是一个事件发生的可能性，我们已知的是事件发生的背景，概率通常针对单次操作。统计更多的是用一些调研方法，进行多次实验，推测出客观存在的数据。依然借用桶中摸球来说明问题：

0?wx_fmt=png

上图的桶是透明的，已知了白球和黑球的数量信息，从中任意摸若干球，可能是什么颜色组合呢？这就需要用概率来回答。

0?wx_fmt=png

上图的桶不可见其内部，需要统计内部黑白球的比例。如何统计呢？那就需要多次抓取，统计手中球的信息，用频数推算，进行一定误差内的统计。例如，根据正态分布中样本的特征，估算总体的均值和方差。

（二）重要统计量

2.1期望

期望若X为离散型随机变量，其概率分布为P(X=xk)=pk(k=1，2，…),则称和数为随机变量X的数学期望,简称期望,记为E(X)，即 0?wx_fmt=png 。

若X为连续型随机变量，其概率密度为f(x)，则X的数学期望为 0?wx_fmt=png 。

期望体现了随机变量取值的真正的“平均”，有时也称其为均值。

特别地，若特征X和Y相互独立时，E(XY)=E(X)E(Y)；反之不成立。

如果已知E(XY)=E(X)E(Y)，只能说明X和Y不相关。

那么不相关和独立有什么区别呢？独立就是两者没有任何关系，当然也不相关。相关指的是线性关系，不相关指没有线性关系，但是呢可能有其他关系，不一定独立。所以独立一定不相关，不相关不一定独立。（哈哈哈是不是一脸懵逼哈哈哈）

2.2方差

概率论中用方差来度量随机变量及其数学期望之间的偏离程度，统计学中用样本方差表示各个数据分别与其平均数之差的平方的和的平均数。在许多实际的问题中，研究方差即偏离程度有着重要意义。公式定义上，方差是函数[X-E(X)]2的期望，因此，离散型、连续型随机变量的方差可统一表示为 0?wx_fmt=png ，表示的是X的取值偏离期望值E(X)的程度。如果X和Y是独立的，那Var(X+Y)=Var(X)+Var(Y)。方差的平方根是标准差。

总结一下，均值描述的是样本集合的中间点，它表达的信息是很有限的，而标准差描述的是样本集合的各个样本到中心点的距离的平均。比如两个集合：[1,9,13,21]和[9,10,12,13],两个集合的均值都是11，但是两个集合的差别还是很大的，后者比较集中，标准差更小一些，而前者的标准差就很大。所以标准差有效描述了集合的分散度。

2.3协方差

协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。

方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来，质量因子是可以人为控制的。

回归分析是从数量因子的角度出发，通过建立回归方程来研究实验指标与一个或几个因子之间的数量关系。但大多数情况下，数量因子是不可以人为加以控制的。

在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

协方差的定义如下：Cov(X,Y)=E { [ X-E(X) ] [ Y-E(Y) ] }。

那么协方差有什么意义呢？协方差作为两个随机变量在相同方向上变化趋势的度量，Cov(X,Y)>0代表两者的变化趋势相同，Cov(X,Y)<0代表两者的变化趋势相反，Cov(X,Y)代表X和Y不相关。机器学习中，可以基于协方差来筛选特征。

0?wx_fmt=png

上图中，一组事物划分出了n个特征，各对应一个分布，每一行代表单个事物，事物标记或者预测出来的标签作为分布Y。通过计算每个特征和标签的协方差，筛选出质量较好的特征，特征选择对后续的实验特别重要。有时，也会用相关系数矩阵来发现特征之间的相关性，可视化展示如下图所示。

0?wx_fmt=png

（三）重要定理与不等式

3.1切比雪夫不等式

切比雪夫表达的是随机变量X及其期望和方差之间的关系，表达式如下：

0?wx_fmt=png

这个不等式说明，X的方差越小，事件发生的概率越大，X的取值基本上集中在期望附近。为统计推断中依据样本平均数估计总体平均数提供了理论依据。特别需要注意的是，切比雪夫定理并未要求Xi 同分布，相较于大数定律更具一般性。

3.2大数定理

大数定理比较有意思哈，是概率论历史上第一个极限定理，原为“伯努利定律”，后改为大数定理，是讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。即在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。（再次一脸懵逼哈哈哈）通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。比如，我们向上抛一枚硬币，硬币落下后哪一面朝上本来是偶然的，但当我们上抛硬币的次数足够多后，达到上万次甚至几十万几百万次以后，我们就会发现，硬币每一面向上的次数约占总次数的二分之一，偶然中包含着某种必然。

大数定理的定义：设随机变量Xi相互独立，并且具有相同的期望和方差。作前n个随机变量的平均Yn，则对于任意正数ε，有公式：

0?wx_fmt=png