样本及抽样分布
前面的五章学习和研究的都是概率论的知识,接下来的四章将学习和研究数理统计的知识。
数理统计以概率论为理论基础。根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。
数理统计是机器学习的许多交叉学科之一,其统计学的思想对机器学习的许多算法设计提供了很大的理论支撑。好好的学习数理统计对入门机器学习有着很好的帮助。
概率论研究的随机变量X都是事先知道其总体分布的,而数理统计就是对一个未知总体分布的随机变量进行研究和学习,通过实验来求得其总体分布。
一、随机样本
1、基本概念:
- 总体:试验中某个指标的全部可能的观察值,一个总体就是一个随机变量。
- 个体:每个可能观察值。
- 容量:总体中所包含的个体的个数。
- 有限总体:容量有限的总体。
- 无限总体:容量无线的总体。
2、简单随机样本
- 定义:从总体中随机的抽出相互独立的个体X1,X2,...,Xn。
3、样本值
- 定义:上述简单随机样本的观察值。
二、直方图和箱线图
为了更好的研究总体分布的性质,通过将试验得到的观察值数据加以整理,借助表格或者图形等可视化的工具来展示出来。
1、直方图
- 频率直方图
2、箱线图
- 样本分位数
- 箱线图
- 疑似异常值(机器学习有专门的算法来检测和移除异常数据)
三、抽样分布
样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推理。
1、基本概念:
- 统计量:
- 样本平均值:
- 样本方差:
- 样本标准差
- 样本k阶(原点)矩
- 样本k阶中心距
2、经验分布函数
根据样本来估总体随便变量的分布函数,有点类似于机器学习中的最大似然估计之类的。
3、正态总体的几个常见统计量的分布:
统计量的分布成为抽样分布,也就是抽样样本的分布。
(1)分布
- 定义:
- 分布的可加性
- 分布的数学期望和方差
- 分布的分为点
(2)t分布
- 定义:
- 分布的分为点:
(3)F分布
- 定义:
- 分布的分为点:
(4)正太总体的样本均值与样本方差的分布
- 定理一
- 定理二
- 定理三
- 定理四