可汗学院统计学笔记(一)

基本概念

1.总体(Population)与样本(Sample)

        总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。注意:采样过程应该是随机的,否则样本无法代表总体的特征。

2.均值(mean)

令总体数为N,样本数为n,每一个样本的取值用表示x_{i},则

总体均值:\mu =\frac{1}{N}\sum_{i=1}^{N}x_{i}

样本均值:\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

 

3.方差(Variance)与标准差(Standard deviation)

方差和标准差描述的是数据的离散程度,也就是远离中心的程度

总体方差:\sigma ^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}

用样本估计总体的方差:s_{n}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}

        这个公式计算的方差通常会低估总体的方差:当样本分布与总体分布相近时,计算得到的样本均值接近总体均值,这时得到的样本方差也就接近总体方差;但是可能的情况是,采样得到的样本与总体偏差较大时(有偏的),由于样本均值总是分布在样本点的中心,这时样本点与样本均值之间的距离小于与总体均值的距离,计算得到的样本方差小于总体方差。这是一种更普遍的情况,因此用上式计算得到的方差通常会低估总体方差。

无偏的样本方差:

s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}

将分母改为n-1,相当于以一个大于1的系数修正了有偏的方差。实验证明,这个公式能更好地估计总体方差。上述情况是在我们不知道总体的均值时,否则就不需要用n-1来保持无偏了。

总体标准差:\sigma =\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}}

样本标准差:s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}

与方差不同,s不是\sigma的无偏估计,因为s的期望不是\sigma。而可以证明s^{2}的期望是\sigma ^{2}

总体方差的推导:

 

计算方差的简便公式:\sigma ^{2}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}

更快的计算方法:\sigma ^2=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-(\frac{1}{N}\sum_{i=1}^{N}x_{i} )^{2}

4.随机变量、概率密度函数、期望

随机变量实际上是一种函数,只有在随机过程中才给它赋值。

概率密度函数下方的面积表示的才是概率,是概率密度函数在某一个区间内的积分。任何一个确切的点的概率值为0

期望值(Expected value):对于随机变量来说,总体数是无穷的,计算总体均值时我们无法将所有的值相加再除以无穷。因此,将每个数值的出现的频率乘以数值然后对所有数值求和,就得到了期望。期望值实际上等同于总体均值。

5.二项分布

二项分布就是重复n次独立的伯努利实验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立实验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

用p表示一次实验中成功的概率,1-p表示一次实验中失败的概率,则二项分布n次独立重复性实验中,成功的次数k的概率为:

P(x=k)=\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}

二项分布的期望:

E(X)=np

二项分布的方差:

E(X)=np(1-p)

 

6.泊松分布

考虑这样一个问题:一个小时内经过某路口的车辆数的概率。由于车辆经过一个路口是一瞬间的事,因此,可以把这个问题看成:在n个瞬时中,有k个瞬时有车经过路口的概率。设车经过路口的概率为p,则这个问题是一个n趋近于无穷大时的二项分布问题。

假设已知泊松分布的期望为\lambda。则E(X)=\lambda =np,  p=\frac{\lambda}{n}

则概率可以这样计算:

7.大数定律(Law of Large numbers)

对每次实验的结果求和然后求均值,当实验的次数足够多时,这个数值会收敛于总体均值或期望值。

\bar{X_n}=\frac{x_1+x_2+\cdots+x_n}{n},

{\lim_{n \to +\infty}}\bar{X_n}=E(X)

8.正态分布(Normal distribution)

概率密度函数:

p(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma })^{2}}

Standard Z score:\frac{x-\mu}{\sigma},表示数据离均值的距离是几个标准差。

正态分布可以通过二项分布近似很好地得到。

累计分布函数CDF:

CDF(x)=\int_{-\infty}^{x}p(x)dx

经验法则:

1\sigma -2\sigma -3\sigma:68-95-99.7

参考:

可汗学院:统计学  http://open.163.com/special/Khan/khstatistics.html

 

 

 

 

 

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值