统计学_1

  1. 总体和样本:
    1.1 总体:研究对象的所有个体,个数以N表示;
    1.2 样本:由于无法全面地研究总体中的每一个对象,而随机地在总体中选择的一部分对象,个数以n表示
    1.3 总体均值:
    μ = ∑ i = 1 N x i / N \mu=\sum_{i=1}^{N} x_{i} / N μ=i=1Nxi/N
    1.4 样本均值:
    x ‾ = ∑ i = 1 n x i / n \overline{x}=\sum_{i=1}^{n} x_{i} / n x=i=1nxi/n

  2. 方差:用于描述数据的离散程度
    2.1 总体方差: σ 2 = ∑ i = 1 N ( x i − μ ) 2 / N = ∑ i = 1 N x i 2 / N − 2 μ ∑ i = 1 N x i / N + μ 2 = ∑ i = 1 N x i 2 / N − 2 μ 2 + μ 2 = ∑ i = 1 N x i 2 / N − μ 2 = ∑ i = 1 N x i 2 / N − ( ∑ i = 1 N x i / N ) 2 \begin{aligned} \sigma^{2} &=\sum_{i=1}^{N}\left(\mathrm{x}_{i}-\mu\right)^{2} / N=\sum_{i=1}^{N} x_{i}^{2} / N-2 \mu \sum_{i=1}^{N} x_{i} / N+\mu^{2} \\ &=\sum_{i=1}^{N} x_{i}^{2} / N-2 \mu^{2}+\mu^{2} \\ &=\sum_{i=1}^{N} x_{i}^{2} / N-\mu^{2} \\ &=\sum_{i=1}^{N} x_{i}^{2} / N-\left(\sum_{i=1}^{N} x_{i} / N\right)^{2} \end{aligned} σ2=i=1N(xiμ)2/N=i=1Nxi2/N2μi=1Nxi/N+μ2=i=1Nxi2/N2μ2+μ2=i=1Nxi2/Nμ2=i=1Nxi2/N(i=1Nxi/N)2
    2.2 样本方差:相比于总体方差,样本方差的分母是n-1,这是考虑到样本取法不合理时,会导致对总体偏差估计过小。称为无偏估计。
    S 2 = ∑ i = 1 n ( x i − x ‾ ) 2 / n − 1 S^{2}=\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} / n-1 S2=i=1n(xix)2/n1

  3. 标准差:标准差在数值上等于方差的平方根,引入标准差会带来一些好处,如可以保持单位的一致。另外,样本的方差是总体方差的无偏估计,但样本的标准差却不是总体的无偏估计。
    3.1 总体标准差: σ = ∑ i = 1 N ( x i − μ ) 2 / N \sigma=\sqrt{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2} / N} σ=i=1N(xiμ)2/N
    3.2 样本标准差: S = ∑ i = 1 n ( x i − x ‾ ) 2 / n − 1 S=\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} / n-1} S=i=1n(xix)2/n1

  4. 随机变量:一种特殊的变量,一般用大写字母表示。区别于传统的变量,随机变量实质上是一个函数,一个将随机过程映射到数值的函数,它不可以求得,因为随机过程的结果未知。随机变量分为两种,一种是离散的随机变量,取值的可能性是有限的;一种是连续的随机变量,取值的可能性是无限的

  5. 概率密度函数:描述随机变量发生概率的函数。
    特点:1、对于连续的随机变量,概率密度函数也是连续的,且没有随机变量等于某一个确定值时的概率这种说法,只有随机变量在某个区间内概率是多少这种说法;2、对于离散的随机变量,概率密度函数也是离散的,对于每一个离散的随机变量值都有对应的一个概率值;3、对于连续的随机变量,概率密度函数曲线的积分值为1,对于离散的随机变量,每个随机变量出现的概率总和为1

  6. 随机变量的期望值:本质上就是总体的均值。对于一个随机过程,随机变量的值可能是有限的,但是每一次随机过程就会有一个随机变量,相当于一个个数无限的总体,没有办法得到总体的均值。这个时候可以通过有限次随机试验的方法,得到一个个数有限的样本,统计每个随机变量出现的频率,将每个随机变量乘以出现的频率求和即为期望值。期望值的计算,本质上是总体均值的另一种求法。
    示例: μ = ∑ i = 1 N x i / N = ( n 1 a + n 2 b + … . ) / N = a n 1 N + b n 2 N + … = a P ( x = a ) + b P ( x = b ) \mu=\sum_{i=1}^{N} x_{i} / N=\left(\mathrm{n}_{1} \mathrm{a}+\mathrm{n}_{2} \mathrm{b}+\ldots .\right) / N=\mathrm{a} \frac{n_{1}}{N}+b \frac{n_{2}}{N}+\ldots=\mathrm{a} P(\mathrm{x}=\mathrm{a})+b P(\mathrm{x}=\mathrm{b}) μ=i=1Nxi/N=(n1a+n2b+.)/N=aNn1+bNn2+=aP(x=a)+bP(x=b)

  7. 二项分布:重复n次的伯努利实验,每次实验只有两种可能的结果。n次试验出现的结果次数与二项式系数有关,概率密度函数的曲线或分布成“钟”型。
    二项分布的例子:
    1、5次抛硬币,正面出现k 次的次数概率分别为:
    P ( X = k ) = ( 5 ! k ! ( 5 − k ) ! ) ( 1 2 ) 5 P(X=k )=\left(\frac{5 !}{k !(5-k ) !}\right)\left(\frac{1}{2}\right)^{5} P(X=k)=(k!(5k)!5!)(21)5
    2、10次投篮,每次投中的概率是0.8,没投中的概率是0.3,投中k 次的概率为:
    P ( X = k ) = ( 10 ! k ! ( 10 − k ) ! ) ( 0.8 ) n ( 0.2 ) 10 − k P(X=k )=\left(\frac{10 !}{k !(10-k ) !}\right)(0.8)^{n}(0.2)^{10-k } P(X=k)=(k!(10k)!10!)(0.8)n(0.2)10k
    二项分布的概率分布公式:每次成功的概率记为p,k次成功的概率为:
    P ( X = k ) = n ! k ! ( n − k ) ! P k ( 1 − P ) n − k P(X=k)=\frac{n !}{k !(n-k) !} P^{k}(1-P)^{n-k} P(X=k)=k!(nk)!n!Pk(1P)nk
    二项分布的期望值:
    μ = ∑ k = 0 n k P ( X = k ) = ∑ k = 0 n k C n k p k ( 1 − p ) n − k = ∑ k = 0 n k n ! k ! ( n − k ) ! p k ( 1 − p ) n − k = ∑ k = 1 n k n ! k ! ( n − k ) ! p k ( 1 − p ) n − k = ∑ k = 0 n n ! ( k − 1 ) ! ( n − k ) ! p k ( 1 − p ) n − a ( b = n − 1 , a = k − 1 ) = n p ⋅ 1 = n p \begin{aligned} \mu &=\sum_{k=0}^{n} k P(X=k)=\sum_{k=0}^{n} k C_{n}^{k} p^{k}(1-\mathrm{p})^{n-k} \\ &=\sum_{k=0}^{n} k \frac{\mathrm{n} !}{k !(\mathrm{n}-\mathrm{k}) !} p^{k}(1-\mathrm{p})^{n-k}=\sum_{k=1}^{n} k \frac{\mathrm{n} !}{k !(\mathrm{n}-\mathrm{k}) !} p^{k}(1-\mathrm{p})^{n-k} \\ &=\sum_{k=0}^{n} \frac{\mathrm{n} !}{(\mathrm{k}-1) !(\mathrm{n}-\mathrm{k}) !} p^{k}(1-\mathrm{p})^{n-a}(\mathrm{b}=\mathrm{n}-1, \mathrm{a}=\mathrm{k}-1) \\ &=n p \cdot 1=n p \end{aligned} μ=k=0nkP(X=k)=k=0nkCnkpk(1p)nk=k=0nkk!(nk)!n!pk(1p)nk=k=1nkk!(nk)!n!pk(1p)nk=k=0n(k1)!(nk)!n!pk(1p)na(b=n1,a=k1)=np1=np

  8. 泊松分布:
    以每小时通过的车流量为例,定义随机变量X描述该随机过程,X表示每小时内通过的车辆数。
    8.1 两个重要假设:1、任意时刻的车流量是没有差异的;2、一段时间内的车流量对另一段时间内的车流量没有影响(独立性)
    8.2 泊松分布与二项分布:泊松分布可以看做随机试验次数无限的二项分布
    对于二项分布,期望值λ=np,n表示总体的个数,p表示每次成功的概率,因此,每次成功的概率可以表示为:p=λ/n。以统计车流量为例子,当对每小时以分钟划分,n即等于60,p表示每分钟有车子通过的概率;当对每小时以秒钟划分,n即等于3600,p表示每秒钟有车子通过的概率。泊松分布与二项分布的区别在于,有车子通过时,可能不止一辆车。解决的办法是,将每小时划分为无限个时间段,可以认为每个时间段有车子通过时,有且仅有一辆车通过。泊松分布是二项分布的一种特殊情况。
    8.3 泊松分布的概率分布函数:
    P ( X = k ) = lim ⁡ n → ∞ C n k P k ( 1 − P ) n − k = lim ⁡ n → ∞ n ! k ! ( n − k ) ! ( λ n ) k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n ! k ! ( n − k ) ! ( λ n ) k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n ! / ( n − k ) ! n k λ k k ! ( 1 − λ n ) n − k = lim ⁡ n → ∞ n ( n − 1 ) … ( n − k + 1 ) n k λ k k ! ( 1 − λ n ) n − k = λ k k ! e − k \begin{aligned} P(X=k) &=\lim _{n \rightarrow \infty} C_{n}^{k} P^{k}(1-P)^{n-k}=\lim _{n \rightarrow \infty} \frac{n !}{k !(n-k) !}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k} \\ &=\lim _{n \rightarrow \infty} \frac{n !}{k !(n-k) !}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}=\lim _{n \rightarrow \infty} \frac{n ! /(n-k) !}{n^{k}} \frac{\lambda^{k}}{k !}\left(1-\frac{\lambda}{n}\right)^{n-k} \\ &=\lim _{n \rightarrow \infty} \frac{n(n-1) \ldots(n-k+1)}{n^{k}} \frac{\lambda^{k}}{k !}\left(1-\frac{\lambda}{n}\right)^{n-k} \\ &=\frac{\lambda^{k}}{k !} e^{-k} \end{aligned} P(X=k)=nlimCnkPk(1P)nk=nlimk!(nk)!n!(nλ)k(1nλ)nk=nlimk!(nk)!n!(nλ)k(1nλ)nk=nlimnkn!/(nk)!k!λk(1nλ)nk=nlimnkn(n1)(nk+1)k!λk(1nλ)nk=k!λkek

  9. 大数定理:描述样本均值与期望值的关系。对某随机过程定义随机变量,并得到n个随机变量的观测样本,随着观测样本数n的增大,样本均值趋近于期望值。
    *赌徒谬论:前k次的观测样本均值并不会影响后续n-k次的样本随机变量值,大数定理并不在乎前述的k次试验结果,大数定理是基于n趋于无穷大时得到的规律。以抛硬币为例,前k次随机试验得到的正面数少并不意味着后续n-k次随机试验会得到更多的正面数。

  10. 正态分布:
    10.1 正态分布的概率密度函数:相对于二项分布和泊松分布,正态分布的概率密度函数是连续的,其表达是为:
    p ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 = 1 σ 2 π e − 1 2 z 2 = 1 σ 2 π e z 2 p(\mathrm{x})=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{2}}=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2} z^{2}}=\frac{1}{\sigma \sqrt{2 \pi} e^{z^{2}}} p(x)=σ2π 1e21(σxμ)2=σ2π 1e21z2=σ2π ez21
    **标准Z分数:
    z = x − μ σ z=\frac{x-\mu}{\sigma} z=σxμ
    正态分布可以近似二项分布,且随着随机试验的次数增加,正态分布对二项分布的近似性会更好。
    影响正态分布概率密度函数曲线的参数:1、样本均值μ是曲线的对称轴;2、标准差σ决定了曲线的高矮胖瘦,标准差越大,曲线越矮胖,标准差越小,曲线越高瘦
    累计分布函数:方便求解正态分布的概率
    C D F ( x ) = ∫ − ∞ x p ( x ) d x C D F(\mathrm{x})=\int_{-\infty}^{x} p(\mathrm{x}) d x CDF(x)=xp(x)dx

    10.2 经验法则(68-95-99.6法则):对于正态分布,存在三个特定区间,三个区间的概率分别为:
    P ( μ − σ &lt; x &lt; μ + σ ) = 0.68 P ( μ − 2 σ &lt; x &lt; μ + 2 σ ) = 0.95 P ( μ − 3 σ &lt; x &lt; μ + 3 σ ) = 0.997 \begin{array}{l}{P(\mu-\sigma&lt;x&lt;\mu+\sigma)=0.68} \\ {P(\mu-2 \sigma&lt;x&lt;\mu+2 \sigma)=0.95} \\ {P(\mu-3 \sigma&lt;x&lt;\mu+3 \sigma)=0.997}\end{array} P(μσ<x<μ+σ)=0.68P(μ2σ<x<μ+2σ)=0.95P(μ3σ<x<μ+3σ)=0.997

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值