可汗学院学习总结(一)

1.总体(Population)与样本(Sample)

  • 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。
  • 一般都是采用样本估计总体的方式,毕竟总体数量太大,将总体可划分为训练集,验证集和测试集。

2.均值(mean)

令总体数为N,样本数为n,每一个样本的取值用表示 x i x_{i} xi,则:

  • 总体均值: μ = 1 N ∑ i = 1 N x i \mu=\frac{1}{N} \sum_{i=1}^{N} x_{i} μ=N1i=1Nxi
  • 样本均值: x ‾ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} x=n1i=1nxi

3.方差(Variance)与标准差(Standard deviation)

方差和标准差描述的是数据的离散程度,也就是远离中心的程度:

  • 总体方差: σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2} σ2=N1i=1N(xiμ)2
  • 样本方差: s n 2 = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} sn2=n1i=1n(xix)2

这个公式计算的方差通常会低估总体的方差:当样本分布与总体分布相近时,计算得到的样本均值接近总体均值,这时得到的样本方差也就接近总体方差;但是可能的情况是,采样得到的样本与总体偏差较大时(有偏的),由于样本均值总是分布在样本点的中心,这时样本点与样本均值之间的距离小于与总体均值的距离,计算得到的样本方差小于总体方差。这是一种更普遍的情况,因此用上式计算得到的方差通常会低估总体方差。

  • 无偏的样本方差: s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} s2=n11i=1n(xix)2

将分母改为n-1,相当于以一个大于1的系数修正了有偏的方差。实验证明,这个公式能更好地估计总体方差。上述情况是在我们不知道总体的均值时,否则就不需要用n-1来保持无偏了。

  • 总体标准差: σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}} σ=N1i=1N(xiμ)2
  • 样本标准差: s = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}} s=n11i=1n(xix)2

4.随机变量、概率密度函数、期望

  • 随机变量实际上是一种函数,只有在随机过程中才给它赋值。

  • 概率密度函数下方的面积表示的才是概率,是概率密度函数在某一个区间内的积分。任何一个确切的点的概率值为0

  • 期望值(Expected value):对于随机变量来说,总体数是无穷的,计算总体均值时我们无法将所有的值相加再除以无穷。因此,将每个数值的出现的频率乘以数值然后对所有数值求和,就得到了期望。期望值实际上等同于总体均值。

5.二项分布

二项分布就是重复n次独立的伯努利实验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立实验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

用p表示一次实验中成功的概率,1-p表示一次实验中失败的概率,则二项分布n次独立重复性实验中,成功的次数k的概率为:

  • P ( x = k ) = n ! k ! ( n − k ) ! p k ( 1 − p ) n − k P(x=k)=\frac{n !}{k !(n-k) !} p^{k}(1-p)^{n-k} P(x=k)=k!(nk)!n!pk(1p)nk

6.二项分布的期望

E ( X ) = n p E ( x ) = ∑ k = 0 n k ⋅ ( n k ) ⋅ p k ( 1 − p ) n − k = ∑ k = 0 n k ⋅ n ! k ! ( n − k ) ! ⋅ p k ( 1 − p ) n − k = ∑ k = 1 n k ⋅ n ( n − 1 ) ! k ( k − 1 ) ! ( n − k ) ! ⋅ p ⋅ p k − 1 ( 1 − p ) n − k = n p ∑ a = 0 n − 1 b ! a ( k − 1 ) ! ( n − k ) ! ⋅ p ⋅ p k − 1 ( 1 − p ) n − k = n p n − 1 b ! a ! ( b − a ) ! ⋅ p ⋅ p k − 1 ( 1 − p ) n − k = n p ⋅ 1 = n p \begin{aligned} E(X) &=n p \\ E(\mathrm{x}) &=\sum_{k=0}^{n} k \cdot\left(\begin{array}{c}{n} \\ {k}\end{array}\right) \cdot p^{k}(1-p)^{n-k} \\ &=\sum_{k=0}^{n} k \cdot \frac{n !}{k !(n-k) !} \cdot p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k \cdot \frac{n(n-1) !}{k(k-1) !(n-k) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p \sum_{a=0}^{n-1} \frac{b !}{a(k-1) !(n-k) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p^{n-1} \frac{b !}{a !(b-a) !} \cdot p \cdot p^{k-1}(1-p)^{n-k} \\ &=n p \cdot 1 \\ &=n p \end{aligned} E(X)E(x)=np=k=0nk(nk)pk(1p)nk=k=0nkk!(nk)!n!pk(1p)nk=k=1nkk(k1)!(nk)!n(n1)!ppk1(1p)nk=npa=0n1a(k1)!(nk)!b!ppk1(1p)nk=npn1a!(ba)!b!ppk1(1p)nk=np1=np

二项分布的方差: E ( X ) = n p ( 1 − p ) E(X)=n p(1-p) E(X)=np(1p)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值