概率与统计基本概念

1.大数定理

1.1依概率收敛

[给出参考:依概率收敛_百度百科 (baidu.com)](https://baike.baidu.com/item/依概率收敛/1792875#:~:text=依概率收敛在概率论中, 依概率收敛 是 随机变量 收敛 的方式之一。 一个随机变量序列(Xn)n>%3D1 依概率收敛到某一个随机变量,X ,指的是 Xn 和 X 之间存在一定差距的可能性将会随着 n 的增大而趋向于零。)

依概率收敛在概率论中,依概率收敛是随机变量收敛的方式之一。一个随机变量序列(Xn)n>=1 依概率收敛到某一个随机变量 X ,指的是 Xn 和 X 之间存在一定差距的可能性将会随着n 的增大而趋向于零。

1.2弱大数定理

如 果 存 在 X j 互 不 相 关 , 所 谓 互 不 相 关 是 指 C o v ( X i , X j ) = 0 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 则 , 对 于 随 机 变 量 的 和 1 n ∑ j = 1 n ( X j − μ j ) 依 概 率 收 敛 到 0 换 句 话 来 说 , 1 n ∑ j = 1 n ( X j ) 依 概 率 收 敛 到 μ 如果存在{X_j}互不相关,所谓互不相关是指Cov(X_i,X_j)=0\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 则,对于随机变量的和\frac{1}{n}\sum_{j=1}^{n}(X_j-μ_j)依概率收敛到0\\ 换句话来说,\frac{1}{n}\sum_{j=1}^{n}(X_j)依概率收敛到μ XjCov(Xi,Xj)=0μj=E(Xj),Var(Xj)Cn1j=1n(Xjμj)0n1j=1n(Xj)μ

1.3点点收敛

P ( lim ⁡ n − > ∞ X n = X ) = 1 P(\lim_{n->∞}X_n=X)=1 P(n>limXn=X)=1

1.4强大数定理

如 果 存 在 X j 互 不 相 关 , 所 谓 互 不 相 关 是 指 C o v ( X i , X j ) = 0 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 换 句 话 来 说 , 1 n ∑ j = 1 n ( X j ) 点 点 概 率 收 敛 到 μ 如果存在{X_j}互不相关,所谓互不相关是指Cov(X_i,X_j)=0\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 换句话来说,\frac{1}{n}\sum_{j=1}^{n}(X_j)点点概率收敛到μ XjCov(Xi,Xj)=0μj=E(Xj),Var(Xj)Cn1j=1n(Xj)μ

2.中心极限定理与特征函数

2.1依分布收敛

X j − F j ( x ) X − F ( x ) 若 满 足 lim ⁡ j − > ∞ = F ( x ) , 则 称 X j 依 分 布 收 敛 到 X 定 义 特 征 函 数 ϕ X ( t ) = E ( e i t X ) , 其 中 i 为 复 数 对 于 依 分 布 收 敛 的 情 况 , 可 以 找 到 特 征 函 数 的 收 敛 与 分 布 函 数 的 收 敛 是 一 一 对 应 X_j - F_j(x)\\ X - F(x)\\ 若满足\lim_{j->∞}=F(x),则称X_j依分布收敛到X\\ 定义特征函数\phi_X(t)=E(e^{itX}),其中i为复数\\ 对于依分布收敛的情况,可以找到特征函数的收敛与分布函数的收敛是一一对应\\ XjFj(x)XF(x)j>lim=F(x),XjXϕX(t)=E(eitX),i

特征函数的两个关键性质

1. ϕ ( k ) ( t ) = i k E ( X k e i t X ) , 当 t = 0 时 , ϕ ( k ) ( t ) = i k E ( X k ) , 即 为 X 的 k 阶 矩 2. 若 Y = X i + . . . + X n , 则 ϕ y ( t ) = ϕ X 1 ( t ) ∗ . . . ∗ ϕ X n ( t ) 1.\phi^{(k)}(t)=i^kE(X^ke^{itX}),\\ 当t=0时,\phi^{(k)}(t)=i^kE(X^k),即为X的k阶矩\\ 2.若Y=X_i+...+X_n,则\phi_y(t)=\phi_{X_1}(t)*...*\phi_{X_n}(t) 1.ϕ(k)(t)=ikE(XkeitX),t=0ϕ(k)(t)=ikE(Xk),Xk2.Y=Xi+...+Xn,ϕy(t)=ϕX1(t)...ϕXn(t)

2.2中心极限定理

如 果 存 在 X j 是 i i d 的 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 则 , 利 用 特 征 函 数 1 n ∑ j = 1 n ( X j ) 的 依 分 布 收 敛 为 N ( 0 , 1 ) 正 态 分 布 具 体 证 明 需 要 的 话 可 以 评 论 区 如果存在{X_j}是iid的\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 则,利用特征函数\frac{1}{\sqrt n}\sum_{j=1}^{n}(X_j)的依分布收敛为N(0,1)正态分布\\ 具体证明需要的话可以评论区 Xjiidμj=E(Xj),Var(Xj)Cn 1j=1n(Xj)N(0,1)

3.统计学基本概念


通 常 把 要 检 验 的 假 设 定 义 为 H 0 , 和 他 对 立 的 假 设 定 义 为 H 1 , 通 过 样 本 情 况 对 H 0 进 行 检 验 所 谓 的 检 验 就 是 根 据 样 本 值 给 出 : 接 受 H 0 还 是 拒 绝 H 0 其 中 定 义 拒 绝 H 0 的 集 合 为 否 定 域 w 。 通常把要检验的假设定义为H_0,和他对立的假设定义为H_1,通过样本情况对H_0进行检验\\ 所谓的检验就是根据样本值给出:接受H_0还是拒绝H_0\\ 其中定义拒绝H_0的集合为否定域w。 H0,H1H0H0H0H0w

在这里插入图片描述

通常采用功效函数法进行描述

定 义 功 效 函 数 : ρ w ( θ ) = P ( r e j e c t   H 0 ∣ θ ) , 其 中 w 为 否 定 域 , 则 可 以 定 义 : 第 一 类 概 率 错 误 : ρ w ( θ ) , 其 中 θ ∈ H 0 ; 第 二 类 概 率 错 误 : 1 − ρ w ( θ ) , 其 中 θ ∈ H 1 ; 定义功效函数:ρ_w(θ)=P(reject\ H_0|θ),其中w为否定域,\\ 则可以定义:\\ 第一类概率错误:ρ_w(θ),其中θ∈H_0;\\ 第二类概率错误:1-ρ_w(θ),其中θ∈H_1; ρw(θ)=P(reject H0θ),w:ρw(θ)θH01ρw(θ)θH1

一 致 最 大 功 效 ( U M P ) : 若 关 于 w 的 第 一 概 率 错 误 ≤ α , 且 第 二 类 概 率 错 误 达 到 最 小 , 就 称 之 为 一 致 最 大 功 效 一致最大功效(UMP):\\ 若关于w的第一概率错误≤α,且第二类概率错误达到最小,就称之为一致最大功效\\ UMP:wα

定 义 检 验 法 中 的 无 偏 性 : 对 于 ∀ θ ∈ H 1 , 均 有 ρ w ( θ ) ≥ α 上 式 描 述 的 是 , 第 一 类 错 误 概 率 不 大 于 第 二 类 错 误 概 率 定义检验法中的无偏性:对于\forall θ∈H_1,均有ρ_w(θ)≥α\\ 上式描述的是,第一类错误概率不大于第二类错误概率 θH1,ρw(θ)α

上图通常我们简记为:
TrueFalse
PositiveTPFP
NegativeTNFN
在此基础上下面介绍两种曲线:
https://www.jianshu.com/p/ac46cb7e6f87

3.1PR(precision-recall)曲线

p r e c i s i o n = T P T P + F P r e c a l l = T P T P + F N precision=\frac{TP}{TP+FP}\\ recall=\frac{TP}{TP+FN}\\ precision=TP+FPTPrecall=TP+FNTP

3.2ROC曲线

横 坐 标 F P R = F P F P + T N 纵 坐 标 T P R = T P T P + F N 横坐标FPR=\frac{FP}{FP+TN}\\ 纵坐标TPR=\frac{TP}{TP+FN} FPR=FP+TNFPTPR=TP+FNTP

3.3P-Value

给出参考:浅谈p值(p-value是什么) - 简书 (jianshu.com)

给出参考:P值_百度百科 (baidu.com)

3.4线性回归与逻辑回归

给出参考:浅析机器学习:线性回归 & 逻辑回归 - 知乎 (zhihu.com)

4.极大似然估计

已 知 X 1 . . . X n 以 及 他 们 对 应 的 Y 1 . . . Y n , 假 设 他 们 符 合 参 数 为 θ 的 模 型 。 并 且 假 定 X i , Y i 相 互 之 间 i i d 则 可 以 定 义 P ( X i , Y i ∣ θ ) 在 此 基 础 上 可 以 定 义 极 大 似 然 估 计 为 , 取 值 θ 使 得 L ( θ ) = ∏ i = 1 n P ( X i , Y i ∣ θ ) 取 最 大 值 记 作 θ M L E = a r g m a x L ( θ ) 已知X_1...X_n以及他们对应的Y_1...Y_n,假设他们符合参数为θ的模型。\\ 并且假定X_i,Y_i相互之间iid\\ 则可以定义P(X_i,Y_i|θ)\\ 在此基础上可以定义极大似然估计为,取值θ使得L(θ)=\prod_{i=1}^{n}P(X_i,Y_i|θ)取最大值\\ 记作θ_{MLE}=argmaxL(θ) X1...XnY1...YnθXiYiiidP(Xi,Yiθ)θ使L(θ)=i=1nP(Xi,Yiθ)θMLE=argmaxL(θ)

5.最大后验估计

给出参考:Bayes分析中的无信息先验_Kanny-CSDN博客_无信息先验
f ( θ ∣ X ) = f ( X ∣ θ ) g ( θ ) ∑ θ f ( X ∣ θ ) g ( θ ) 定 义 最 大 后 验 估 计 θ M A P = a r g m a x θ f ( θ ∣ X ) f(θ|X)=\frac{f(X|θ)g(θ)}{\sum_{θ}f(X|θ)g(θ)}\\ 定义最大后验估计θ_{MAP}=argmax_θf(θ|X) f(θX)=θf(Xθ)g(θ)f(Xθ)g(θ)θMAP=argmaxθf(θX)

6.蒙特卡洛方法

当 概 率 比 较 难 算 的 时 候 , 可 以 采 用 蒙 特 卡 洛 方 法 。 主 要 用 在 下 述 迭 代 求 解 的 场 景 中 可 以 通 过 蒙 特 卡 洛 方 法 求 得 g 0 ( θ ) , 然 后 进 行 迭 代 求 得 : g 1 ( θ ) = f ( X 1 ∣ θ ) g 0 ( θ ) . . . 继 续 迭 代 下 去 g 2 ( θ ) = f ( X 2 ∣ θ ) g 1 ( θ ) 常 用 在 M C M C 中 当概率比较难算的时候,可以采用蒙特卡洛方法。\\ 主要用在下述迭代求解的场景中\\ 可以通过蒙特卡洛方法求得g_0(θ),然后进行迭代求得:\\ g_1(θ)=f(X_1|θ)g_0(θ)...继续迭代下去\\ g_2(θ)=f(X_2|θ)g_1(θ)\\ 常用在MCMC中 g0(θ)g1(θ)=f(X1θ)g0(θ)...g2(θ)=f(X2θ)g1(θ)MCMC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值