统计学基础知识梳理--NO.1

本次学习涵盖的知识点:统计学的基本概念,二项分布,泊松分布,大数定律,正态分布

本次学习参考内容:

1.可汗学院统计学公开课

2.《深入浅出统计学》

知识点清单

1.均值 中位数 众数

均值u的计算方式: u=\frac{\sum x}{n}x表示样本的值,\sum x表示对所有的样本点求和,n是样本的个数,用一句话来概括就是将一批数据进行求和,然后除以这批数据的个数就是这批数据的均值,我们常说的平均值是算术平均值。

中位数:将一组数据按照从小到大的顺序排列,然后其中间的数值就是中位数,如果中间存在两个数值,则计算中间两个数的平均值就是这组数据的中位数。

众数:一组数据中出现次数最多的数值是这组数据的众数。

平均值,中位数和众数都是反应数据集中趋势的度量,但是各有侧重。平均数需要所有数据参与计算,但是容易受到极端值的影响;中位数和众数不易受到极端值的影响,但是也有一定的局限性。

2.四分位数

将一组数据按照升序排列,然后将这些数据分成四个相等的数据块,将这批数据分为四块的几个数值就是所谓的四分位数。

最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。中间的四分位数(Q2)就是中位数。每两个四分位数之间的距离称为四分位距(IQR)。

四分位距 = 上四分位数 - 下四分位数

3.极差

R= X_{max} - X_{min}  等于一组数据中的最大值减去最小值,用来衡量一组数据的离散程度

4.样本和总体

总体是在统计分析时研究的全体对象,样本是从总体中抽取一部分作为统计分析的样本,不同的样本抽取方式会产生不同的样本。

5.总体方差

总体方差的计算公式就是我们一般理解的方差计算公式,是一组数据中各数值与其算术平均数离差平方和的平均数

\sigma ^{2} = \frac{1}{n}\sum(x_{i}-\bar{x}) ^{2}

6.样本方差

样本方差的计算公式:s ^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x}) ^{2},与方差的计算区别在于除以的是(n-1)。这里说的样本方差,其实是对总体方差的估计,为了得到总体方差的无偏估计值,所以会对样本方差进行修正。

因为对于抽样来说,抽样得到的样本均值往往和总体均值存在一定的偏差,这就会导致分子上的平方和的计算偏小,为了使样本方差接近总体方差,将分母变为n-1得到较大的样本方差,使样本方差更接近总体方差值。

7.标准差

从计算公式上看,标准差就是方差的算术平方根,标准差\sigma =\sqrt{\sigma ^{2}}=\sqrt{\frac{1}{n}\sum(x_{i}-\bar{x}) ^{2}}

标准差可以反应数据的离散程度,与方差不同的是它可以反应出数据偏离平均数的距离的平均数。

8.随机变量

随机变量是反应一个随机过程各种结果取值的数值函数。比如抛掷一枚硬币,可能的结果有正面朝上,反面朝上两种,,我们定义X为抛硬币这一随机事件的随机变量,则X可以表示为:

这里公式编辑器没有用好,后续改进。

随机变量可以分为离散型随机变量和连续型随机变量。离散型随机变量是指定义变量的数值只能用自然数或整数单位计算,而且计量数值是有限的。连续型随机变量是指随机变量的取值可以是任意的/连续不断的,可以取无限个数值。

离散型随机变量对应于概率分布函数,连续型随机变量对应与概率密度函数

9.概率密度函数

概率密度函数是连续型随机变量的直观描述,通常用概率曲线。离散型随机变量的概率直观显示通常用条形图来展示。如果一个随机变量X的概率密度函数为f(x),则它的累计分布函数Fx(x) = \int_{-\infty }^{x}f(x)(t)d_{t}

概率密度曲线下方的面积之和一定为1

一定区间内的随机变量概率为这个区间内概率曲线下方的面积,即

10.期望

期望是试验中每次可能结果的概率乘以结果的总和,大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。

离散型随机变量的期望:E(X) = \sum_{k=1}^{n}x_{k}p_{k}

离散型随机变量的期望:E(X) = \int_{-\infty }^{\infty }xf(x)dx

11.二项分布

二项分布是指,在进行n次独立的伯努利试验时,每次出现的结果只有两种可能,且互相独立不影响。

记作B(n,p),n是试验进行的次数,p是时间发生的概率

发生k次的概率: P(X=k) = C_{n}^{k}p^{k}(1-p)^{n-k}

期望:E\xi =np

方差:D\xi =npq,q=(1-p)

当n很大时,二项分布逼近正太分布

12.泊松分布

泊松分布的概率函数为:P(X=k) = \frac{\lambda ^{k}}{k!}e^{-\lambda },λ是单位时间内随机事件的平均发生次数.

当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。

13.大数定律

大数定律通俗一点来讲,就是样本数量很大的时候,样本均值和真实均值充分接近。

14.正态分布

正态曲线又称为钟型曲线,两头低中间高。对于一个服从正态分布的随机变量,N(u,\sigma^{2} )表示均值为u,方差为\sigma ^{^{2}}

当u=0,\sigma=1时为标准正态分布。

可以将一般的正态分布转化成标准正态分布,X~N(u,\sigma ^{^{2}})Y=\frac{X-u}{\sigma }~N(0,1).

正态分布的概率密度函数f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-u)^{2}}{2\sigma ^{2}}}

Z分数的计算Z=\frac{x-u}{\sigma }

经验法则:对于正态分布,68%的数据位于均值的一杯标准差内,有95%的数据处于均值的2倍标准差内,有99.7%的数据位于均值的3倍标准差内。这个很重要,后续的很多地方都可能用到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值