《深入浅出统计学(中文版)》读书笔记【全15章】

统计学 专栏收录该内容
2 篇文章 1 订阅

前言

很基础的一些统计学知识。

正文

1 信息图形化

在这里插入图片描述


2 集中趋势的度量

在这里插入图片描述


3 分散性与变异性的量度

在这里插入图片描述


4 概率计算

发 生 事 件 A 的 概 率 = 发 生 实 践 A 的 可 能 数 目 所 有 可 能 结 果 的 数 目 发生事件A的概率=\frac{发生实践A的可能数目}{所有可能结果的数目} A=A

P ( A ) = n ( A ) n ( S ) P(A) = \frac{n(A)}{n(S)} P(A)=n(S)n(A)

S S S:概率空间,样本空间,表示所有可能结果的集合。可能发生的时间都是 S S S的子集。

事件释义维恩图
对立事件 A ′ A' A A ′ A' A A A A的对立事件,即事件 A A A不可能发生的事件,它的概率为 P ( A ′ ) = 1 − P ( A ) P(A')=1-P(A) P(A)=1P(A)在这里插入图片描述
互斥事件如果两个事件是互斥事件,则只有其中一个事件会发生在这里插入图片描述
相交事件如果两个事件相交,则这两个事件有可能同时发生在这里插入图片描述
集合维恩图
交集 ∩ \cap 在这里插入图片描述
并集 ∪ \cup 在这里插入图片描述

为了求出以事件A或B为结果的概率,可以使用下列算法:
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B)=P(A)+P(B)-P(A \cap B) P(AB)=P(A)+P(B)P(AB)

  • 条件概率
    以事件 B B B为已知条件的事件 A A A的概率(假定B已发生,根据这个假设算出事件A的发生概率):
    P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(AB)=P(B)P(AB)

如果 A A A B B B互斥,那么 P ( A ∩ B ) = 0 P(A\cap B)=0 P(AB)=0 P ( A ∣ B ) = 0 P(A|B)=0 P(AB)=0

全概率公式(根据条件概率计算一个特定事件的全概率):
P ( B ) = P ( A ) ∗ P ( B ∣ A ) + P ( A ′ ) ∗ P ( B ∣ A ′ ) P(B)=P(A)*P(B|A)+P(A')*P(B|A') P(B)=P(A)P(BA)+P(A)P(BA)
贝叶斯定理(计算逆条件概率):
P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P ( A ) ∗ P ( B ∣ A ) + P ( A ′ ) ∗ P ( B ∣ A ′ ) P(A|B)=\frac{P(A)*P(B|A)}{P(A)*P(B|A)+P(A')*P(B|A')} P(AB)=P(A)P(BA)+P(A)P(BA)P(A)P(BA)

事件释义
相关事件如果几个事件互有影响,则为相关事件
独立事件如果几个事件互不影响,则为独立事件

对于独立事件来说:
P ( A ∣ B ) = P ( A ) P(A | B)=P(A) P(AB)=P(A)(独立性检验)
P ( A ∩ B ) = P ( A ) ∗ P ( B ) P(A\cap B)=P(A)*P(B) P(AB)=P(A)P(B)

如果A、B是互斥事件,则二者不会是独立事件;如果A、B是独立事件,则二者不会是互斥事件。(互斥意味着相关)


5 离散概率分布的运用

  • 期望
    E ( X ) = ∑ x P ( X = x ) E(X)= \sum xP(X=x) E(X)=xP(X=x)

  • 方差
    V a r ( X ) = E ( X − μ ) 2 = ∑ ( x − μ ) 2 P ( X = x ) Var(X)=E(X-\mu)^2=\sum(x-\mu)^2P(X=x) Var(X)=E(Xμ)2=(xμ)2P(X=x)

  • 标准差
    σ = V a r ( X ) \sigma=\sqrt{Var(X)} σ=Var(X)

  • 线性变换通用公式
    E ( a X + b ) = a E ( X ) + b E(aX+b)=aE(X)+b E(aX+b)=aE(X)+b
    V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b)=a^2Var(X) Var(aX+b)=a2Var(X)

  • 独立观测值速算法
    E ( X 1 + X 2 + ⋯ + X n ) = n E ( X ) E(X_1+X_2+\cdots+X_n)=nE(X) E(X1+X2++Xn)=nE(X)
    V a r ( X 1 + X 2 + ⋯ + X n ) = n V a r ( X ) Var(X_1+X_2+\cdots+X_n)=nVar(X) Var(X1+X2++Xn)=nVar(X)

  • 加减运算
    E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
    E ( X − Y ) = E ( X ) − E ( Y ) E(X-Y)=E(X)-E(Y) E(XY)=E(X)E(Y)
    V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y)=Var(X)+Var(Y) Var(X+Y)=Var(X)+Var(Y)
    V a r ( X − Y ) = V a r ( X ) + V a r ( Y ) Var(X-Y)=Var(X)+Var(Y) Var(XY)=Var(X)+Var(Y)
    独立随机变量做减法运算,方差依旧增大。

  • 线性变换+加减运算
    E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY)=aE(X)+bE(Y) E(aX+bY)=aE(X)+bE(Y)
    E ( a X − b Y ) = a E ( X ) − b E ( Y ) E(aX-bY)=aE(X)-bE(Y) E(aXbY)=aE(X)bE(Y)
    V a r ( a X + b Y ) = a 2 V a r ( X ) + b 2 V a r ( Y ) Var(aX+bY)=a^2Var(X)+b^2Var(Y) Var(aX+bY)=a2Var(X)+b2Var(Y)
    V a r ( a X − b Y ) = a 2 V a r ( X ) + b 2 V a r ( Y ) Var(aX-bY)=a^2Var(X)+b^2Var(Y) Var(aXbY)=a2Var(X)+b2Var(Y)

6 排列与组合

排列:从给定个数的元素中取出指定个数的元素进行排序。

组合:从给定个数的元素中仅仅取出指定个数的元素,不考虑排序。
在这里插入图片描述
排列组合


7 几何分布、二项分布、泊松分布 [离散分布]

离散分布公式条件期望方差
几何分布 X ∼ G e o ( p ) X \sim Geo(p) XGeo(p)

P ( X = r ) = ( 1 − p ) r − 1 p P(X=r)=(1-p)^{r-1}p P(X=r)=(1p)r1p
1. 进行一些列相互独立的试验;
2. 每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同;
3. 求解为了取得第一次成功需要多少次试验
E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1 V a r ( X ) = 1 − p p 2 Var(X)=\frac{1-p}{p^2} Var(X)=p21p在这里插入图片描述
二项分布 X ∼ B ( n , p ) X \sim B(n,p) XB(n,p)

P { X = r } = C n r p r ( 1 − p ) n − r P \{ X=r \}=C^r_np^r(1-p)^{n-r} P{X=r}=Cnrpr(1p)nr
1、2同上
3.试验次数固定,求成功(或失败)一定次数的概率
E ( X ) = n p E(X)=np E(X)=np V a r ( X ) = n p q Var(X)=npq Var(X)=npq在这里插入图片描述
泊松分布 X ∼ P o ( λ ) X \sim Po(\lambda) XPo(λ)

P ( X = r ) = e − λ λ r r ! P(X=r)=\frac{e^{-\lambda}\lambda^r}{r!} P(X=r)=r!eλλr
1. 单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间
2.已知该区间内的事件平均发生次数(发发生率),且为有限数值。
λ \lambda λ λ \lambda λ在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

8 正态分布 [连续分布]

  • 连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

  • 连续随机变量的概率为概率密度函数下方介于特定数值范围之间的面积。线下总面积为1。

正态分布具有钟形曲线曲线对称,中央部位的概率密度最大。越是偏离均值,概率密度减小。均值和中位数均位于中央,具有最大概率密度。

连续分布公式期望方差
正态分布 X ∼ N ( μ , σ 2 ) X \sim N (\mu, \sigma ^2) XN(μ,σ2) μ \mu μ σ 2 \sigma^2 σ2

正太概率计算三步法:

  1. 确定分步与范围
    ① 确定均值 μ \mu μ和方差 σ 2 \sigma^2 σ2
    ② 确定数值范围
  2. 使其标准化
    求出标准分:
    Z = X − μ σ Z = \frac{X-\mu}{\sigma} Z=σXμ
    Z ∼ N ( 0 , 1 ) Z \sim N(0,1) ZN(0,1)
  3. 查找概率
    z z z保留两位小数,使用概率表查找数值。查找概率时,需要用第一行和第一列定位,第一列为 z z z值(保留一位小数),第一行为第二位小数,交点即为概率。
    通过概率表查找的是 P ( Z < z ) P(Z<z) P(Z<z)的概率,
    P ( Z > z ) = 1 − P ( Z < z ) P(Z>z)=1-P(Z<z) P(Z>z)=1P(Z<z)
    P ( a < Z < b ) = P ( Z < b ) − P ( Z < a ) P(a<Z<b)=P(Z<b)-P(Z<a) P(a<Z<b)=P(Z<b)P(Z<a)

9 再谈正态分布的运用

  • 如果独立随机变量 X X X Y Y Y 都分别符合正态分布,那么 X + Y X+Y X+Y也符合正态分布 (变量相互独立,不影响)

    X ∼ N ( μ x , σ x 2 ) X \sim N(\mu_x,\sigma^2_x) XN(μx,σx2),且 Y ∼ N ( μ y , σ y 2 ) Y \sim N(\mu_y,\sigma^2_y) YN(μy,σy2)

    X + Y ∼ N ( μ , σ 2 ) X+Y \sim N(\mu,\sigma^2) X+YN(μ,σ2)
    其中 μ = μ x + μ y \mu = \mu_x + \mu_y μ=μx+μy σ 2 = σ x 2 + σ y 2 \sigma^2=\sigma_x^2+\sigma_y^2 σ2=σx2+σy2;
    X − Y ∼ N ( μ , σ 2 ) X-Y \sim N(\mu,\sigma^2) XYN(μ,σ2)
    其中 μ = μ x − μ y \mu = \mu_x - \mu_y μ=μxμy σ 2 = σ x 2 + σ y 2 \sigma^2=\sigma_x^2+\sigma_y^2 σ2=σx2+σy2

  • 线性变化的分布:
    a X + b ∼ N ( a μ + b , a 2 σ 2 ) aX+b \sim N(a\mu+b,a^2\sigma^2) aX+bN(aμ+b,a2σ2)

  • 如果是独立观察结果的方差和期望

    E ( X 1 + X 2 + ⋯ + X n ) = n E ( X ) E(X_1+X_2+\cdots+X_n)=nE(X) E(X1+X2++Xn)=nE(X)
    V a r ( X 1 + X 2 + ⋯ + X n ) = n V a r ( X ) Var(X_1+X_2+\cdots+X_n)=nVar(X) Var(X1+X2++Xn)=nVar(X)
    如果 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2),则 X 1 + X 2 + ⋯ + X n ∼ N ( n μ , n σ 2 ) X_1+X_2+\cdots+X_n \sim N(n\mu,n\sigma^2) X1+X2++XnN(nμ,nσ2)
    在这里插入图片描述


  • 某些情况下(n>50, p<0.1),泊松分布可以近似替代二项分布,此时 λ = n p \lambda =np λ=np

  • 某些情况下(np>5, nq>5),正态分布也可以近似替代二项分布,此时 X ∼ N ( n p , n p q ) X \sim N(np, npq) XN(np,npq)
  • 某些情况下( λ > 15 \lambda>15 λ>15),正态分布也可以近似替代泊松分布,此时 X ∼ N ( λ , λ ) X \sim N(\lambda, \lambda) XN(λ,λ)

  • 连续性修正:
    在这里插入图片描述
    在这里插入图片描述

10 统计抽样的运用

  • 总体:指的是准备对其进行测量、研究或分析的整个群体。
  • 样本:一个统计样本就是从总体中选取的一小部分对象
  • 仅对总体的一个样本进行的研究获调查称为样本调查
抽样方法具体方法
简单随机抽样通过随机过程选取一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同
1. 重复抽样
2. 不重复抽样
分层抽样将总体分割为几个相似的组,每个组具有类似的特性,这些特性或者组就被称为层。
然后对每一个层进行简单随机抽样,确保最终样本中具有每一个组的代表篇。
为此需要查看每个层在总体中所占比例,然后按照比例从每个层中抽取抽样单位。
整群抽样当总体中包括大量相似的组或群时,可以对群进行简单随机抽样,然后对每一个群中的各种特性进行调查。
系统抽样按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字。

在这里插入图片描述


11 总体和样本的估计

样本 → 总体(样本预测总体)

点估计量是根据样本数据得出的对总体统计量的最佳猜测值

样本点估计量总体
样本均值 x ˉ \bar x xˉ点估计量 μ ^ \hat \mu μ^总体均值 μ \mu μ
样本方差 s 2 s^2 s2点估计量 σ ^ 2 \hat \sigma ^2 σ^2总体方差 σ 2 \sigma ^2 σ2
样本比例 p s p_s ps点估计量 p ^ \hat p p^总体比例 p p p

前提:无偏样本

在这里插入图片描述

样本数据直接计算得到的方差会小于实际总体方差,因为总体的里量更大(n),方差也更大。

在这里插入图片描述


总体 → 样本(通过总体了解样本)

1. 比例的抽样分布

由总体发生的概率(比例)→ 样本比例分布 → 样本发生的概率(比例)

n>30, p s p_s ps接近正态分布
p s ∼ N ( p , p q n ) p_s \sim N(p, \frac{pq}{n}) psN(p,npq)

在这里插入图片描述

2. 均值的抽样分布

已知总体均值和方差 → 样本比例分布 → 样本均值为xx的概率
在这里插入图片描述
在这里插入图片描述

  • 中心极限定理不需要进行连续性修正
    因为中心极限定理求出的概率与样本均值有关,而与样本中的数值无关,因此不需要进行连续性修正。

12 置信区间

由于点估计量的推导依赖于样本的无偏,所以用置信区间来代替点估计量进行估算。

求解置信区间四步骤:

  1. 选择总体统计量
    通常用均值比例构建置信区间。
  2. 求出其抽样分布
    均值的抽样分布的均值和方差等于:
    E ( X ˉ ) = μ E(\bar X)=\mu E(Xˉ)=μ
    V a r ( X ˉ ) = s 2 n Var(\bar X)=\frac{s^2}{n} Var(Xˉ)=ns2
    则, X ˉ ∼ N ( μ , s 2 n ) \bar X \sim N(\mu, \frac{s^2}{n}) XˉN(μ,ns2)
  3. 决定置信水平
    置信水平越高,置信区间越大
  4. 求出置信上下限
    ① 根据置信水平求出 P ( Z < z a ) P(Z<z_a) P(Z<za) P ( Z > z b ) P(Z>z_b) P(Z>zb),查概率表确定 z a z_a za z b z_b zb
    【e.g.当置信水平为95%时, P ( Z < z a ) = P ( Z > z b ) = 0.025 P(Z<z_a)=P(Z>z_b)=0.025 P(Z<za)=P(Z>zb)=0.025,查概率表确定 z a = − 1.96 z_a=-1.96 za=1.96 z b = 1.96 z_b=1.96 zb=1.96
    ② 则 P ( z a < X ˉ − μ σ < z b ] P(z_a<\frac{\bar X - \mu}{\sigma}< z_b] P(za<σXˉμ<zb] = 置信水平
    ③ 求出置信区间 [ X ˉ − z a σ s 2 , X ˉ + z b σ s 2 ] [\bar X - z_a\frac{\sigma}{\sqrt{s^2}\quad}, \bar X + z_b\frac{\sigma}{\sqrt{s^2}\quad}] [Xˉzas2 σ,Xˉ+zbs2 σ]
    在这里插入图片描述

总体符合正态分布但当样本很小(样本不符合正态分布)时, X ˉ \bar X Xˉ符合 T T T分布。

  • 自由度 v = n − 1 v=n-1 v=n1,n为样本的大小

在这里插入图片描述


13 假设检验

假设检验六步骤:

  1. 确定要进行检验的假设
    原假设 H 0 H_0 H0
    备择假设 H 1 H_1 H1
    进行假设检验时,假定原假设为真;如果有足够的证据反驳原假设,则拒绝原假设,接受备择假设。
  2. 选择检验统计量
    根据原假设 H 0 H_0 H0选择检验统计量。
  3. 确定用于做决策的拒绝域
    显著性水平:希望在样本结果的不可能成都达到多大时,拒绝原假设 H 0 H_0 H0
    单侧检验(> / <) or 双侧检验(≠)
  4. 求出检验统计量的p值
    p值为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率。
  5. 查看样本结果是否位于拒绝域内
  6. 做出决策

在这里插入图片描述
在这里插入图片描述


14 卡方分布

在这里插入图片描述
在这里插入图片描述
卡方分布的两个用途:

  1. 检验拟合优度
  2. 检验两个变量的独立性
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

15 相关与回归

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

附录

  • 2
    点赞
  • 0
    评论
  • 8
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

参与评论 您还未登录,请先 登录 后发表或查看评论
©️2022 CSDN 皮肤主题:深蓝海洋 设计师:CSDN官方博客 返回首页

打赏作者

Yating260

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值