一 序
本文属于极客时间基础课学习笔记系列。这些课程做基础是偏重感性上的理解而不是严格意义的公式推导。就是老师不会逐个给你讲解具体每个公式大的含义,相当于你得有数学基础帮你复习下,要是像我这种小白,没啥好办法。看看就得停下来去找找更加通俗的例子来辅助理解。
再机器学习中,数理统计有助于对机器学习算法的结果做出合理性解释。数理统计根据实验数据来研究随机现象,并对研究对象的客观规律做出合理性估计和判断。
简单的 理解:数理统计可以看做是逆向的概率论。
二 基础定义
样本:可用的资源是有限的数据集合。
(在实际中,总体的分布一般是未知的,人们都是通过从总体中抽取一部分个体,根据获得的数据对总体分布做出推断,被抽出的部分个体叫做总体的一个样本)
总体: 观察对象所有可能取值。
样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的指标构造样本的适当函数(即统计量),利用统计量进行统计推断。
统计量是随机变量的一个函数,是对样本的一个量化指标,常用的统计量是:
样本均值:
样本均值是数学期望,求的是n个观测值的平均值,而期望指的是观测值及其概率的乘积的累加和
在样本足够多的情况下,可以理解为样本均值趋近于期望E
样本方差:
注意这里的观测值减去的是均值,之前的方差的本质是固定不变的,是观测值与其期望的偏差。而样本方差是随机变量,是对正确偏差的一种估计值。
三 参数估计
参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。可以分为:点估计和区间估计两部分。
3.1点估计
在已知总体分布函数形式,但未知其一个或者多个参数时,借助于总体的一个样本来估计未知参数的取值就是参数的点估计。
构造点估计常用的方法是:矩估计法,最大似然估计法。不常用的还有:最小二乘法,贝叶斯估计法。
矩估计法
就是利用样本矩来估计总体中相应的参数。矩表示的是随机变量的分布特征,k阶矩的定义为随机变量的k次方的均值,即,根据辛钦大数定律知,样本矩的函数几乎处处收敛于总体矩的相应函数,启发我们用样本k阶矩替换总体k阶矩。意味着当样本数据量足够大时,几乎可以根据样本参数得到相应总体参数的相似值。
最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。
最大似然估计法
与基于大数定律的矩估计法不同,最大似然估计法是频率学派看待概率的方式。
设样本X=(X1,X2,…,Xn)的分布密度为L(X,θ),若固定X而将L视为θ的函数,则称为似然函数,当X是简单随机样本时,它等于
独立事件的联合概率,直接相乘就可以得到。其中是总体分布的密度函数或概率函数。一经得到样本值x,然后使用估计
.
看起来有些抽象,换个角度理解,结合之前LR使用的推导过程。基础上没有这么细,提了下一带而过,因为之前LR使用了所以我补充下极大似然值的计算。
就是在未知参数的取值范围
中选取使得似然函数
能够取得最大值的
作为未知参数的估计值。因此
就是未知参数
的极大似然估计。
极大似然估计值的计算
这个计算就是之前说的LR求极值的问题。求解使得似然函数 取得最大值的未知参数
的取值.
连续型变量,式子 可以写成
求极值就是对似然函数求导,使得导数为0的取值。
这个连乘的函数求导数比较复杂,为了处理方便,常常对似然函数取对数,得到对数似然函数,:因为函数ln是严格递增的,跟
的单调性是保持一致的,
跟
在同一位置取到最大值。这样连乘就变成了连加:
如果方程有唯一解,且是极大值点,那么我们就求得了极大似然估计值。有多个未知参数,需要对每一个待估计的未知参数 求偏导。并建立方程组,对方程组求解。
这部分之前文哲老师在讲解LR部分详细讲过。这里只是串一下。知乎上有很多高赞的回答,图文并茂,回答的很仔细。我有个体会,知乎的大佬不只是套用公式,还会用浅显通俗的语言讲清楚。
比如:https://www.zhihu.com/question/24124998
概率论中评判估计值优劣的标准:
无偏性:估计量的数学期望等于位置参数的真实值。
有效性:无偏估计量的方差尽可能小。(这是一个相对的概念,就是当两个统计量都是有效的情况,谁更靠近真实值,谁就更有效。)
一致性:当样本量区域无穷时,估计量依概率收敛于未知参数的真实值。
这里的概念很抽象,其中“依概率收敛”主要是想衡量我设定的统计量在增加试验次数时,是否可以更加靠近真相。
无偏不等于一致。关于这3个特性的解释:请看知乎大佬的详细介绍。https://zhuanlan.zhihu.com/p/66658725
小结:因为相对于矩估计,极大似然估计有最高的渐进效率,极大似然估计应用范围更广。
3.2 区间估计
通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计,这个区间叫做置信区间。
点估计对未知的参数进行估计所得到的一个具体的数据。区间估计得到结果是一个区间。
置信区间:通常使用估计值+-误差界限
这里很多大佬给出了解释:https://www.zhihu.com/question/26419030
四 假设检验
参数估计是对总体的某个参数估计,假设检验是对总体的某个论断。就是总体的假设。
推论统计学上定义为零假设H0(原假设),与之相反的是备选假设H1。
假设检验过程中,不可能做出的结论总是正确的,必须要考虑误差的概率,概率误差的最大容许值称为检验的显著水平,一般选择显著性水平为5%和1%。
检验的错误分为两种类型,一是弃真错误,二是取伪错误。
弃真错误,是指原假设为真,但检验的结果拒绝了原假设;取伪错误,是指原假设为假,但检验的结果接受了原假设。
假设检验的思维方式建立在全称命题只能证伪不能证实的基础上,只要举出一个反例就够了,但是再假设检验中,反例以小概率事件的形式出现。
当在原假设条件下,T值出现的概率小于a时,拒绝原假设。
通常我们在机器学习中,认为好的模型有好的泛化能力(适用于不属于训练集的新样本的能力),假设检验作用就是根据学习器在不同的测试集的性能推断其泛化能力的强弱。常用的有交叉验证方法。
除了推断之外,对于泛化性能的解释也是机器学习算法分析的重要内容。以下为泛化误差的构成:
- 偏差:度量了学习算法的期望与真实值之间的偏离程度,刻画了算法的欠拟合能力。
- 方差:度量了训练集的变动导致的学习性能的变化,刻画了数据扰动所造成的影响(过拟合能力)
- 噪声:决定了泛化误差的下限,刻画了任务本身的难度。
通常:方差和偏差难以同时优化。
总结