1.大数定理
1.1依概率收敛
[给出参考:依概率收敛_百度百科 (baidu.com)](https://baike.baidu.com/item/依概率收敛/1792875#:~:text=依概率收敛在概率论中, 依概率收敛 是 随机变量 收敛 的方式之一。 一个随机变量序列(Xn)n>%3D1 依概率收敛到某一个随机变量,X ,指的是 Xn 和 X 之间存在一定差距的可能性将会随着 n 的增大而趋向于零。)
依概率收敛在概率论中,依概率收敛是随机变量收敛的方式之一。一个随机变量序列(Xn)n>=1 依概率收敛到某一个随机变量 X ,指的是 Xn 和 X 之间存在一定差距的可能性将会随着n 的增大而趋向于零。
1.2弱大数定理
如 果 存 在 X j 互 不 相 关 , 所 谓 互 不 相 关 是 指 C o v ( X i , X j ) = 0 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 则 , 对 于 随 机 变 量 的 和 1 n ∑ j = 1 n ( X j − μ j ) 依 概 率 收 敛 到 0 换 句 话 来 说 , 1 n ∑ j = 1 n ( X j ) 依 概 率 收 敛 到 μ 如果存在{X_j}互不相关,所谓互不相关是指Cov(X_i,X_j)=0\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 则,对于随机变量的和\frac{1}{n}\sum_{j=1}^{n}(X_j-μ_j)依概率收敛到0\\ 换句话来说,\frac{1}{n}\sum_{j=1}^{n}(X_j)依概率收敛到μ 如果存在Xj互不相关,所谓互不相关是指Cov(Xi,Xj)=0令均值μj=E(Xj),并且Var(Xj)≤C,即方差都是有界的则,对于随机变量的和n1j=1∑n(Xj−μj)依概率收敛到0换句话来说,n1j=1∑n(Xj)依概率收敛到μ
1.3点点收敛
P ( lim n − > ∞ X n = X ) = 1 P(\lim_{n->∞}X_n=X)=1 P(n−>∞limXn=X)=1
1.4强大数定理
如 果 存 在 X j 互 不 相 关 , 所 谓 互 不 相 关 是 指 C o v ( X i , X j ) = 0 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 换 句 话 来 说 , 1 n ∑ j = 1 n ( X j ) 点 点 概 率 收 敛 到 μ 如果存在{X_j}互不相关,所谓互不相关是指Cov(X_i,X_j)=0\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 换句话来说,\frac{1}{n}\sum_{j=1}^{n}(X_j)点点概率收敛到μ 如果存在Xj互不相关,所谓互不相关是指Cov(Xi,Xj)=0令均值μj=E(Xj),并且Var(Xj)≤C,即方差都是有界的换句话来说,n1j=1∑n(Xj)点点概率收敛到μ
2.中心极限定理与特征函数
2.1依分布收敛
X j − F j ( x ) X − F ( x ) 若 满 足 lim j − > ∞ = F ( x ) , 则 称 X j 依 分 布 收 敛 到 X 定 义 特 征 函 数 ϕ X ( t ) = E ( e i t X ) , 其 中 i 为 复 数 对 于 依 分 布 收 敛 的 情 况 , 可 以 找 到 特 征 函 数 的 收 敛 与 分 布 函 数 的 收 敛 是 一 一 对 应 X_j - F_j(x)\\ X - F(x)\\ 若满足\lim_{j->∞}=F(x),则称X_j依分布收敛到X\\ 定义特征函数\phi_X(t)=E(e^{itX}),其中i为复数\\ 对于依分布收敛的情况,可以找到特征函数的收敛与分布函数的收敛是一一对应\\ Xj−Fj(x)X−F(x)若满足j−>∞lim=F(x),则称Xj依分布收敛到X定义特征函数ϕX(t)=E(eitX),其中i为复数对于依分布收敛的情况,可以找到特征函数的收敛与分布函数的收敛是一一对应
特征函数的两个关键性质
1. ϕ ( k ) ( t ) = i k E ( X k e i t X ) , 当 t = 0 时 , ϕ ( k ) ( t ) = i k E ( X k ) , 即 为 X 的 k 阶 矩 2. 若 Y = X i + . . . + X n , 则 ϕ y ( t ) = ϕ X 1 ( t ) ∗ . . . ∗ ϕ X n ( t ) 1.\phi^{(k)}(t)=i^kE(X^ke^{itX}),\\ 当t=0时,\phi^{(k)}(t)=i^kE(X^k),即为X的k阶矩\\ 2.若Y=X_i+...+X_n,则\phi_y(t)=\phi_{X_1}(t)*...*\phi_{X_n}(t) 1.ϕ(k)(t)=ikE(XkeitX),当t=0时,ϕ(k)(t)=ikE(Xk),即为X的k阶矩2.若Y=Xi+...+Xn,则ϕy(t)=ϕX1(t)∗...∗ϕXn(t)
2.2中心极限定理
如 果 存 在 X j 是 i i d 的 令 均 值 μ j = E ( X j ) , 并 且 V a r ( X j ) ≤ C , 即 方 差 都 是 有 界 的 则 , 利 用 特 征 函 数 1 n ∑ j = 1 n ( X j ) 的 依 分 布 收 敛 为 N ( 0 , 1 ) 正 态 分 布 具 体 证 明 需 要 的 话 可 以 评 论 区 如果存在{X_j}是iid的\\ 令均值μ_j=E(X_j),并且Var(X_j)≤C,即方差都是有界的\\ 则,利用特征函数\frac{1}{\sqrt n}\sum_{j=1}^{n}(X_j)的依分布收敛为N(0,1)正态分布\\ 具体证明需要的话可以评论区 如果存在Xj是iid的令均值μj=E(Xj),并且Var(Xj)≤C,即方差都是有界的则,利用特征函数n1j=1∑n(Xj)的依分布收敛为N(0,1)正态分布具体证明需要的话可以评论区
3.统计学基本概念
通 常 把 要 检 验 的 假 设 定 义 为 H 0 , 和 他 对 立 的 假 设 定 义 为 H 1 , 通 过 样 本 情 况 对 H 0 进 行 检 验 所 谓 的 检 验 就 是 根 据 样 本 值 给 出 : 接 受 H 0 还 是 拒 绝 H 0 其 中 定 义 拒 绝 H 0 的 集 合 为 否 定 域 w 。 通常把要检验的假设定义为H_0,和他对立的假设定义为H_1,通过样本情况对H_0进行检验\\ 所谓的检验就是根据样本值给出:接受H_0还是拒绝H_0\\ 其中定义拒绝H_0的集合为否定域w。 通常把要检验的假设定义为H0,和他对立的假设定义为H1,通过样本情况对H0进行检验所谓的检验就是根据样本值给出:接受H0还是拒绝H0其中定义拒绝H0的集合为否定域w。
通常采用功效函数法进行描述
定 义 功 效 函 数 : ρ w ( θ ) = P ( r e j e c t H 0 ∣ θ ) , 其 中 w 为 否 定 域 , 则 可 以 定 义 : 第 一 类 概 率 错 误 : ρ w ( θ ) , 其 中 θ ∈ H 0 ; 第 二 类 概 率 错 误 : 1 − ρ w ( θ ) , 其 中 θ ∈ H 1 ; 定义功效函数:ρ_w(θ)=P(reject\ H_0|θ),其中w为否定域,\\ 则可以定义:\\ 第一类概率错误:ρ_w(θ),其中θ∈H_0;\\ 第二类概率错误:1-ρ_w(θ),其中θ∈H_1; 定义功效函数:ρw(θ)=P(reject H0∣θ),其中w为否定域,则可以定义:第一类概率错误:ρw(θ),其中θ∈H0;第二类概率错误:1−ρw(θ),其中θ∈H1;
一 致 最 大 功 效 ( U M P ) : 若 关 于 w 的 第 一 概 率 错 误 ≤ α , 且 第 二 类 概 率 错 误 达 到 最 小 , 就 称 之 为 一 致 最 大 功 效 一致最大功效(UMP):\\ 若关于w的第一概率错误≤α,且第二类概率错误达到最小,就称之为一致最大功效\\ 一致最大功效(UMP):若关于w的第一概率错误≤α,且第二类概率错误达到最小,就称之为一致最大功效
定 义 检 验 法 中 的 无 偏 性 : 对 于 ∀ θ ∈ H 1 , 均 有 ρ w ( θ ) ≥ α 上 式 描 述 的 是 , 第 一 类 错 误 概 率 不 大 于 第 二 类 错 误 概 率 定义检验法中的无偏性:对于\forall θ∈H_1,均有ρ_w(θ)≥α\\ 上式描述的是,第一类错误概率不大于第二类错误概率 定义检验法中的无偏性:对于∀θ∈H1,均有ρw(θ)≥α上式描述的是,第一类错误概率不大于第二类错误概率
上图通常我们简记为:
True | False | |
---|---|---|
Positive | TP | FP |
Negative | TN | FN |
在此基础上下面介绍两种曲线:
https://www.jianshu.com/p/ac46cb7e6f87
3.1PR(precision-recall)曲线
p r e c i s i o n = T P T P + F P r e c a l l = T P T P + F N precision=\frac{TP}{TP+FP}\\ recall=\frac{TP}{TP+FN}\\ precision=TP+FPTPrecall=TP+FNTP
3.2ROC曲线
横 坐 标 F P R = F P F P + T N 纵 坐 标 T P R = T P T P + F N 横坐标FPR=\frac{FP}{FP+TN}\\ 纵坐标TPR=\frac{TP}{TP+FN} 横坐标FPR=FP+TNFP纵坐标TPR=TP+FNTP
3.3P-Value
给出参考:浅谈p值(p-value是什么) - 简书 (jianshu.com)
3.4线性回归与逻辑回归
给出参考:浅析机器学习:线性回归 & 逻辑回归 - 知乎 (zhihu.com)
4.极大似然估计
已 知 X 1 . . . X n 以 及 他 们 对 应 的 Y 1 . . . Y n , 假 设 他 们 符 合 参 数 为 θ 的 模 型 。 并 且 假 定 X i , Y i 相 互 之 间 i i d 则 可 以 定 义 P ( X i , Y i ∣ θ ) 在 此 基 础 上 可 以 定 义 极 大 似 然 估 计 为 , 取 值 θ 使 得 L ( θ ) = ∏ i = 1 n P ( X i , Y i ∣ θ ) 取 最 大 值 记 作 θ M L E = a r g m a x L ( θ ) 已知X_1...X_n以及他们对应的Y_1...Y_n,假设他们符合参数为θ的模型。\\ 并且假定X_i,Y_i相互之间iid\\ 则可以定义P(X_i,Y_i|θ)\\ 在此基础上可以定义极大似然估计为,取值θ使得L(θ)=\prod_{i=1}^{n}P(X_i,Y_i|θ)取最大值\\ 记作θ_{MLE}=argmaxL(θ) 已知X1...Xn以及他们对应的Y1...Yn,假设他们符合参数为θ的模型。并且假定Xi,Yi相互之间iid则可以定义P(Xi,Yi∣θ)在此基础上可以定义极大似然估计为,取值θ使得L(θ)=i=1∏nP(Xi,Yi∣θ)取最大值记作θMLE=argmaxL(θ)
5.最大后验估计
给出参考:Bayes分析中的无信息先验_Kanny-CSDN博客_无信息先验
f
(
θ
∣
X
)
=
f
(
X
∣
θ
)
g
(
θ
)
∑
θ
f
(
X
∣
θ
)
g
(
θ
)
定
义
最
大
后
验
估
计
θ
M
A
P
=
a
r
g
m
a
x
θ
f
(
θ
∣
X
)
f(θ|X)=\frac{f(X|θ)g(θ)}{\sum_{θ}f(X|θ)g(θ)}\\ 定义最大后验估计θ_{MAP}=argmax_θf(θ|X)
f(θ∣X)=∑θf(X∣θ)g(θ)f(X∣θ)g(θ)定义最大后验估计θMAP=argmaxθf(θ∣X)
6.蒙特卡洛方法
当 概 率 比 较 难 算 的 时 候 , 可 以 采 用 蒙 特 卡 洛 方 法 。 主 要 用 在 下 述 迭 代 求 解 的 场 景 中 可 以 通 过 蒙 特 卡 洛 方 法 求 得 g 0 ( θ ) , 然 后 进 行 迭 代 求 得 : g 1 ( θ ) = f ( X 1 ∣ θ ) g 0 ( θ ) . . . 继 续 迭 代 下 去 g 2 ( θ ) = f ( X 2 ∣ θ ) g 1 ( θ ) 常 用 在 M C M C 中 当概率比较难算的时候,可以采用蒙特卡洛方法。\\ 主要用在下述迭代求解的场景中\\ 可以通过蒙特卡洛方法求得g_0(θ),然后进行迭代求得:\\ g_1(θ)=f(X_1|θ)g_0(θ)...继续迭代下去\\ g_2(θ)=f(X_2|θ)g_1(θ)\\ 常用在MCMC中 当概率比较难算的时候,可以采用蒙特卡洛方法。主要用在下述迭代求解的场景中可以通过蒙特卡洛方法求得g0(θ),然后进行迭代求得:g1(θ)=f(X1∣θ)g0(θ)...继续迭代下去g2(θ)=f(X2∣θ)g1(θ)常用在MCMC中