本次学习涵盖的知识点:统计学的基本概念,二项分布,泊松分布,大数定律,正态分布
本次学习参考内容:
知识点清单
1.均值 中位数 众数
均值u的计算方式: ,表示样本的值,表示对所有的样本点求和,是样本的个数,用一句话来概括就是将一批数据进行求和,然后除以这批数据的个数就是这批数据的均值,我们常说的平均值是算术平均值。
中位数:将一组数据按照从小到大的顺序排列,然后其中间的数值就是中位数,如果中间存在两个数值,则计算中间两个数的平均值就是这组数据的中位数。
众数:一组数据中出现次数最多的数值是这组数据的众数。
平均值,中位数和众数都是反应数据集中趋势的度量,但是各有侧重。平均数需要所有数据参与计算,但是容易受到极端值的影响;中位数和众数不易受到极端值的影响,但是也有一定的局限性。
2.四分位数
将一组数据按照升序排列,然后将这些数据分成四个相等的数据块,将这批数据分为四块的几个数值就是所谓的四分位数。
最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。中间的四分位数(Q2)就是中位数。每两个四分位数之间的距离称为四分位距(IQR)。
四分位距 = 上四分位数 - 下四分位数
3.极差
等于一组数据中的最大值减去最小值,用来衡量一组数据的离散程度
4.样本和总体
总体是在统计分析时研究的全体对象,样本是从总体中抽取一部分作为统计分析的样本,不同的样本抽取方式会产生不同的样本。
5.总体方差
总体方差的计算公式就是我们一般理解的方差计算公式,是一组数据中各数值与其算术平均数离差平方和的平均数
6.样本方差
样本方差的计算公式:,与方差的计算区别在于除以的是(n-1)。这里说的样本方差,其实是对总体方差的估计,为了得到总体方差的无偏估计值,所以会对样本方差进行修正。
因为对于抽样来说,抽样得到的样本均值往往和总体均值存在一定的偏差,这就会导致分子上的平方和的计算偏小,为了使样本方差接近总体方差,将分母变为n-1得到较大的样本方差,使样本方差更接近总体方差值。
7.标准差
从计算公式上看,标准差就是方差的算术平方根,标准差
标准差可以反应数据的离散程度,与方差不同的是它可以反应出数据偏离平均数的距离的平均数。
8.随机变量
随机变量是反应一个随机过程各种结果取值的数值函数。比如抛掷一枚硬币,可能的结果有正面朝上,反面朝上两种,,我们定义X为抛硬币这一随机事件的随机变量,则X可以表示为:
这里公式编辑器没有用好,后续改进。
随机变量可以分为离散型随机变量和连续型随机变量。离散型随机变量是指定义变量的数值只能用自然数或整数单位计算,而且计量数值是有限的。连续型随机变量是指随机变量的取值可以是任意的/连续不断的,可以取无限个数值。
离散型随机变量对应于概率分布函数,连续型随机变量对应与概率密度函数
9.概率密度函数
概率密度函数是连续型随机变量的直观描述,通常用概率曲线。离散型随机变量的概率直观显示通常用条形图来展示。如果一个随机变量X的概率密度函数为,则它的累计分布函数。
概率密度曲线下方的面积之和一定为1
一定区间内的随机变量概率为这个区间内概率曲线下方的面积,即
10.期望
期望是试验中每次可能结果的概率乘以结果的总和,大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
离散型随机变量的期望:
离散型随机变量的期望:
11.二项分布
二项分布是指,在进行n次独立的伯努利试验时,每次出现的结果只有两种可能,且互相独立不影响。
记作,n是试验进行的次数,p是时间发生的概率
发生k次的概率:
期望:
方差:,q=(1-p)
当n很大时,二项分布逼近正太分布
12.泊松分布
泊松分布的概率函数为:,λ是单位时间内随机事件的平均发生次数.
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
13.大数定律
大数定律通俗一点来讲,就是样本数量很大的时候,样本均值和真实均值充分接近。
14.正态分布
正态曲线又称为钟型曲线,两头低中间高。对于一个服从正态分布的随机变量,表示均值为,方差为。
当u=0,=1时为标准正态分布。
可以将一般的正态分布转化成标准正态分布,~,~.
正态分布的概率密度函数
Z分数的计算
经验法则:对于正态分布,68%的数据位于均值的一杯标准差内,有95%的数据处于均值的2倍标准差内,有99.7%的数据位于均值的3倍标准差内。这个很重要,后续的很多地方都可能用到。