《概论-浙大第4版-第六章》

样本及抽样分布

前面的五章学习和研究的都是概率论的知识,接下来的四章将学习和研究数理统计的知识。

数理统计以概率论为理论基础。根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。

数理统计是机器学习的许多交叉学科之一,其统计学的思想对机器学习的许多算法设计提供了很大的理论支撑。好好的学习数理统计对入门机器学习有着很好的帮助。

概率论研究的随机变量X都是事先知道其总体分布的,而数理统计就是对一个未知总体分布的随机变量进行研究和学习,通过实验来求得其总体分布。

 

一、随机样本

1、基本概念:

  • 总体:试验中某个指标的全部可能的观察值,一个总体就是一个随机变量。
  • 个体:每个可能观察值。
  • 容量:总体中所包含的个体的个数。
  • 有限总体:容量有限的总体。
  • 无限总体:容量无线的总体。

2、简单随机样本

  • 定义:从总体中随机的抽出相互独立的个体X1,X2,...,Xn。

3、样本值

  • 定义:上述简单随机样本的观察值。

二、直方图和箱线图

为了更好的研究总体分布的性质,通过将试验得到的观察值数据加以整理,借助表格或者图形等可视化的工具来展示出来。

1、直方图

  • 频率直方图

2、箱线图

  • 样本分位数
  • 箱线图
  • 疑似异常值(机器学习有专门的算法来检测和移除异常数据)

三、抽样分布

样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推理。

1、基本概念:

  • 统计量:

  • 样本平均值:
  • 样本方差:
  • 样本标准差
  • 样本k阶(原点)矩
  • 样本k阶中心距

2、经验分布函数

根据样本来估总体随便变量的分布函数,有点类似于机器学习中的最大似然估计之类的。

3、正态总体的几个常见统计量的分布:

统计量的分布成为抽样分布,也就是抽样样本的分布。

(1)\chi ^{2}分布

  • 定义:
  • 分布的可加性
  • 分布的数学期望和方差
  • 分布的分为点

(2)t分布

  • 定义:
  • 分布的分为点:

(3)F分布

  • 定义:
  • 分布的分为点:

(4)正太总体的样本均值与样本方差的分布

  • 定理一
  • 定理二
  • 定理三
  • 定理四

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值