统计学基础知识梳理--NO.1

最新推荐文章于 2024-07-06 07:12:39 发布

IceForest1

最新推荐文章于 2024-07-06 07:12:39 发布

阅读量2.4k

点赞数 1

分类专栏：统计学

本文链接：https://blog.csdn.net/ooxxshaso/article/details/88028662

版权

统计学专栏收录该内容

10 篇文章 9 订阅

订阅专栏

本次学习涵盖的知识点：统计学的基本概念，二项分布，泊松分布，大数定律，正态分布

本次学习参考内容：

1.可汗学院统计学公开课

2.《深入浅出统计学》

知识点清单

1.均值中位数众数

均值u的计算方式： $u=\frac{\sum x}{n}$ ，表示样本的值， $\sum x$ 表示对所有的样本点求和，是样本的个数，用一句话来概括就是将一批数据进行求和，然后除以这批数据的个数就是这批数据的均值，我们常说的平均值是算术平均值。

中位数：将一组数据按照从小到大的顺序排列，然后其中间的数值就是中位数，如果中间存在两个数值，则计算中间两个数的平均值就是这组数据的中位数。

众数：一组数据中出现次数最多的数值是这组数据的众数。

平均值，中位数和众数都是反应数据集中趋势的度量，但是各有侧重。平均数需要所有数据参与计算，但是容易受到极端值的影响；中位数和众数不易受到极端值的影响，但是也有一定的局限性。

2.四分位数

将一组数据按照升序排列，然后将这些数据分成四个相等的数据块，将这批数据分为四块的几个数值就是所谓的四分位数。

最小的四分位数（Q1）称为下四分位数或第一四分位数，最大的四分位数（Q3）称为上四分位数或第三四分位数。中间的四分位数（Q2）就是中位数。每两个四分位数之间的距离称为四分位距（IQR）。

四分位距 = 上四分位数 - 下四分位数

3.极差

$R= X_{max} - X_{min}$ 等于一组数据中的最大值减去最小值，用来衡量一组数据的离散程度

4.样本和总体

总体是在统计分析时研究的全体对象，样本是从总体中抽取一部分作为统计分析的样本，不同的样本抽取方式会产生不同的样本。

5.总体方差

总体方差的计算公式就是我们一般理解的方差计算公式，是一组数据中各数值与其算术平均数离差平方和的平均数

$\sigma ^{2} = \frac{1}{n}\sum(x_{i}-\bar{x}) ^{2}$

6.样本方差

样本方差的计算公式： $s ^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x}) ^{2}$ ,与方差的计算区别在于除以的是（n-1)。这里说的样本方差，其实是对总体方差的估计，为了得到总体方差的无偏估计值，所以会对样本方差进行修正。

因为对于抽样来说，抽样得到的样本均值往往和总体均值存在一定的偏差，这就会导致分子上的平方和的计算偏小，为了使样本方差接近总体方差，将分母变为n-1得到较大的样本方差，使样本方差更接近总体方差值。

7.标准差

从计算公式上看，标准差就是方差的算术平方根，标准差 $\sigma =\sqrt{\sigma ^{2}}=\sqrt{\frac{1}{n}\sum(x_{i}-\bar{x}) ^{2}}$

标准差可以反应数据的离散程度，与方差不同的是它可以反应出数据偏离平均数的距离的平均数。

8.随机变量

随机变量是反应一个随机过程各种结果取值的数值函数。比如抛掷一枚硬币，可能的结果有正面朝上，反面朝上两种，，我们定义X为抛硬币这一随机事件的随机变量，则X可以表示为：

这里公式编辑器没有用好，后续改进。

随机变量可以分为离散型随机变量和连续型随机变量。离散型随机变量是指定义变量的数值只能用自然数或整数单位计算，而且计量数值是有限的。连续型随机变量是指随机变量的取值可以是任意的/连续不断的，可以取无限个数值。

离散型随机变量对应于概率分布函数，连续型随机变量对应与概率密度函数

9.概率密度函数

概率密度函数是连续型随机变量的直观描述，通常用概率曲线。离散型随机变量的概率直观显示通常用条形图来展示。如果一个随机变量X的概率密度函数为 f(x) ,则它的累计分布函数 $Fx(x) = \int_{-\infty }^{x}f(x)(t)d_{t}$ 。

概率密度曲线下方的面积之和一定为1

一定区间内的随机变量概率为这个区间内概率曲线下方的面积，即

10.期望

期望是试验中每次可能结果的概率乘以结果的总和，大数定律规定，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值。

离散型随机变量的期望： $E(X) = \sum_{k=1}^{n}x_{k}p_{k}$

离散型随机变量的期望： $E(X) = \int_{-\infty }^{\infty }xf(x)dx$

11.二项分布

二项分布是指，在进行n次独立的伯努利试验时，每次出现的结果只有两种可能，且互相独立不影响。

记作 B(n,p) ,n是试验进行的次数，p是时间发生的概率

发生k次的概率: $P(X=k) = C_{n}^{k}p^{k}(1-p)^{n-k}$

期望： $E\xi =np$

方差： $D\xi =npq$ ,q=(1-p)

当n很大时，二项分布逼近正太分布

12.泊松分布

泊松分布的概率函数为： $P(X=k) = \frac{\lambda ^{k}}{k!}e^{-\lambda }$ ,λ是单位时间内随机事件的平均发生次数.

当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧20,p≦0.05时，就可以用泊松公式近似得计算。

13.大数定律

大数定律通俗一点来讲，就是样本数量很大的时候，样本均值和真实均值充分接近。

14.正态分布

正态曲线又称为钟型曲线，两头低中间高。对于一个服从正态分布的随机变量， $N(u,\sigma^{2} )$ 表示均值为,方差为 $\sigma ^{^{2}}$ 。

当u=0, $\sigma$ =1时为标准正态分布。

可以将一般的正态分布转化成标准正态分布，~ $N(u,\sigma ^{^{2}})$ ， $Y=\frac{X-u}{\sigma }$ ~ N(0,1) .

正态分布的概率密度函数 $f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-u)^{2}}{2\sigma ^{2}}}$

Z分数的计算 $Z=\frac{x-u}{\sigma }$

经验法则：对于正态分布，68%的数据位于均值的一杯标准差内，有95%的数据处于均值的2倍标准差内，有99.7%的数据位于均值的3倍标准差内。这个很重要，后续的很多地方都可能用到。