所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
今天是概率统计基础的第二篇文章, 基于第一篇随机变量与随机事件进行整理, 首先理一理这里面的逻辑,第一篇的内容蕴涵了大部分概率论的知识(除了大数定律和中心极限定理这种理论性的支持, 后期有机会会补上)。而今天的这篇内容是在概率论的基础上往前一步, 属于数理统计的内容。概率论中, 我们研究随机现象, 随机变量, 但是我们是假设它们的分布已知, 比如已知某一随机变量服从什么分布, 在这个基础上研究性质, 特点和规律(数字特征啊, 随机变量分布啊等), 而数理统计中, 我们研究随机变量的分布未知或者一部分未知, 要去做的就是通过从未知分布中抽取多个样本, 对这些数据进行统计分析, 从而研究随机变量的分布等。
大纲如下:数理统计的基础(基础概念, 统计量与抽样分布, 常用统计量)
描述性统计(数据集中趋势和离散趋势, 分布特征, 偏度与峰度)
数理统计基础
前面已经分析了数理统计是基于是通过从未知分布中抽取多个样本, 对这些数据进行统计分析进而去分析随机变量的规律和特点, 所以在这里面依然会涉及到一些基本的概念。
基础概念
这里的基础概念包括总体, 个体, 总体容量, 样本, 简单随机样本, 如果这些概念都知道, 就可以跳过了哈哈。
在数理统计中, 总体就是研究对象的全体, 通常用一个随机变量表示, 组成总体的每个基本单元叫个体, 而总体中包含的个体总数就是总体容量。
我们研究的就是这个未知分布的总体的统计规律, 所以我们需要从这里面随机抽取一部分个体进行统计,利用概率论的知识去分析推断。所以从总体中随机抽取一部分个体,称为取自的容量为的样本。来个栗子吧:
简单随机样本:满足以下两个条件的随机样本称为容量是的简单随机样本:代表性:每个与同分布
独立性:是相互独立的随机变量。
样本是具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。
一般地,用,, 表示随机样本,它们取到的值记为,称为样本观测值。一般情形下, 两次观测, 样本值是不同的。
样本作为随机变量,有一定的概率分布,这个概率分布称为样本分布。显然,样本分布取决于总体的性质和样本的性质。
统计量与抽样分布
数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为统计推断。从样本中提取有用的信息来研究总体的分布及各种特征数就是构造统计量的过程, 因此,统计量是样本的某种函数。
比如10个灯泡的平均寿命是统计量。
常用的统计量
1. 样本均值
设 是总体 XXX 的一个简单随机样本,称为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。均值这个numpy实现就是np.mean()
2. 样本方差
设是总体的一个简单随机样本&#