#统计分析-数理统计与参数估计

断更了一段时间咯,最近私人事情有点多,也因此耽误了一会儿,今天继续更新哈~

今天讲一下数理统计以及参数估计,这一个主题的内容其实很多的,一篇的篇幅肯定是讲不完的,这篇只能说是简单介绍一些比较常用以及重要的概念的,大家看看咯~

0?wx_fmt=jpeg

(一)概率统计与机器学习

首先我们来分析概率与统计的区别。概率计算的是一个事件发生的可能性,我们已知的是事件发生的背景,概率通常针对单次操作。统计更多的是用一些调研方法,进行多次实验,推测出客观存在的数据。依然借用桶中摸球来说明问题:

0?wx_fmt=png

上图的桶是透明的,已知了白球和黑球的数量信息,从中任意摸若干球,可能是什么颜色组合呢?这就需要用概率来回答。

0?wx_fmt=png

上图的桶不可见其内部,需要统计内部黑白球的比例。如何统计呢?那就需要多次抓取,统计手中球的信息,用频数推算,进行一定误差内的统计。例如,根据正态分布中样本的特征,估算总体的均值和方差。

(二)重要统计量

2.1期望

期望若X为离散型随机变量,其概率分布为P(X=xk)=pk(k=1,2,…),则称和数为随机变量X的数学期望,简称期望,记为E(X),即0?wx_fmt=png

若X为连续型随机变量,其概率密度为f(x),则X的数学期望为0?wx_fmt=png

期望体现了随机变量取值的真正的“平均”,有时也称其为均值。

特别地,若特征X和Y相互独立时,E(XY)=E(X)E(Y);反之不成立。

如果已知E(XY)=E(X)E(Y),只能说明X和Y不相关。

那么不相关和独立有什么区别呢?独立就是两者没有任何关系,当然也不相关。相关指的是线性关系,不相关指没有线性关系,但是呢可能有其他关系,不一定独立。所以独立一定不相关,不相关不一定独立。(哈哈哈是不是一脸懵逼哈哈哈)

2.2方差

概率论中用方差来度量随机变量及其数学期望之间的偏离程度统计学中用样本方差表示各个数据分别与其平均数之差的平方的和的平均数。在许多实际的问题中,研究方差即偏离程度有着重要意义。公式定义上,方差是函数[X-E(X)]2的期望,因此,离散型、连续型随机变量的方差可统一表示为0?wx_fmt=png,表示的是X的取值偏离期望值E(X)的程度。如果X和Y是独立的,那Var(X+Y)=Var(X)+Var(Y)。方差的平方根是标准差。

总结一下,均值描述的是样本集合的中间点,它表达的信息是很有限的,而标准差描述的是样本集合的各个样本到中心点的距离的平均。比如两个集合:[1,9,13,21]和[9,10,12,13],两个集合的均值都是11,但是两个集合的差别还是很大的,后者比较集中,标准差更小一些,而前者的标准差就很大。所以标准差有效描述了集合的分散度。

2.3协方差

协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。

方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来,质量因子是可以人为控制的。 

回归分析是从数量因子的角度出发,通过建立回归方程来研究实验指标与一个或几个因子之间的数量关系。但大多数情况下,数量因子是不可以人为加以控制的

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 

协方差的定义如下:Cov(X,Y)=E { [ X-E(X) ] [ Y-E(Y) ] }。

那么协方差有什么意义呢?协方差作为两个随机变量在相同方向上变化趋势的度量,Cov(X,Y)>0代表两者的变化趋势相同,Cov(X,Y)<0代表两者的变化趋势相反,Cov(X,Y)代表X和Y不相关。机器学习中,可以基于协方差来筛选特征

0?wx_fmt=png

上图中,一组事物划分出了n个特征,各对应一个分布,每一行代表单个事物,事物标记或者预测出来的标签作为分布Y。通过计算每个特征和标签的协方差,筛选出质量较好的特征,特征选择对后续的实验特别重要。有时,也会用相关系数矩阵来发现特征之间的相关性,可视化展示如下图所示。

0?wx_fmt=png

(三)重要定理与不等式

3.1切比雪夫不等式

切比雪夫表达的是随机变量X及其期望和方差之间的关系,表达式如下:

0?wx_fmt=png

这个不等式说明,X的方差越小,事件发生的概率越大,X的取值基本上集中在期望附近。为统计推断中依据样本平均数估计总体平均数提供了理论依据。特别需要注意的是,切比雪夫定理并未要求Xi 同分布,相较于大数定律更具一般性。

3.2大数定理

大数定理比较有意思哈,是概率论历史上第一个极限定理,原为“伯努利定律”,后改为大数定理,是讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。即在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。(再次一脸懵逼哈哈哈)通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,偶然中包含着某种必然。

大数定理的定义:设随机变量Xi相互独立,并且具有相同的期望和方差。作前n个随机变量的平均Yn,则对于任意正数ε,有公式:

0?wx_fmt=png

3.3中心极限定理

中心极限定理指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。

定义为:设随机变量X1、X2...Xn...相互独立,服从同一分布,并具有相同的期望和方差,则随机变量Yn0?wx_fmt=png的分布收敛到标准正态分布。

在实际问题中,很多随机现象可以看作许多因素的独立影响的综合反映,往往近似服从正态分布。比如城市耗电量——大量用户的耗电量总和。

(四)用样本估计参数

参数评估是通过抽取样本来评估总体的分布的方法。例如我们从黑盒子中抽取了一堆白球和黑球,怎样知道盒子中球是什么样的分布呢,正态分布还是二元分布呢?有两种常用的构造估计量的方法:矩估计法和极大似然估计法

矩估计的理论依据是大数定理,通过找总体矩与参数之间的关系,用样本矩替换总体矩,得到关于估计量的方程组,解方程组得到k个参数的矩估计值。

最大似然估计法是在总体分布类型已知条件下使用的一种参数估计方法,它的思想是一次试验就出现的事件有较大的概率。比如说王祖蓝和李晨撕名牌,你猜最后谁获胜了呢?因为李的获胜概率大,所以这次还是李获胜的可能性大。

0?wx_fmt=jpeg

好啦,今天就先说这么多内容,接下来继续持续更新~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值