文章目录
机器学习方法最终引入 概率 是一个必然趋势,于是演化成 两大流派:
- 频率派
- 贝叶斯派
本片blog就是来讲解这两大流派的异同。
前提假设:
样本
x
i
=
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
p
)
x_i = (x_{i1}, x_{i2}, ... , x_{ip})
xi=(xi1,xi2,...,xip): 第i个样本,且每个样本为p维向量
样本集 X: 共有N个样本,则
X
N
∗
P
=
(
x
i
j
)
X_{N*P}=(x_{ij})
XN∗P=(xij)
参数
θ
\theta
θ: parameter
对于每一个样本 x i x_i xi,都是一个概率变量,则都服从某一个概率分布 x ∼ p ( x ∣ θ ) x \sim p(x| \theta ) x∼p(x∣θ)
英文简写:
MLE: 最大似然估计
MAP:最大后验估计
r.v. : 随机变量
iid: 独立同分布
模型 | 频率派 | 贝叶斯派 |
---|---|---|
演变 | 统计机器学习 | 概率图模型 |
核心 | 优化问题 | 求积分问题 |
思路 | 1.创建一个模型 2.设定一个loss函数 3 .利用一个算法(梯度下降,随机梯度下降) 最小化loss,算出参数,即可得到最终模型 | 求积分问题,利用贝叶斯定理分解出 p ( θ ∥ X ) p(\theta \| X) p(θ∥X),这期间会遇到求积分,但是有的时候积分项很难求解,就必须想个方法代替积分,比如采样,比如蒙特卡罗,MCMC |
对于参数 θ \theta θ | 是一个未知的常量 | 不是常量,而是一个随机变量,即 θ \theta θ服从某一个概率分布 |
目的 | 求解出常量 θ \theta θ | 求解出随机变量 θ \theta θ的概率分布中 概率最高得 对应的 θ \theta θ |
模型 | θ M L E = a r g m a x θ L o s s = a r g m a x ∏ p ( x ∥ θ ) = a r g m a x θ l o g ( p ( x ∥ θ ) ) \theta _{MLE} = argmax_{\theta}Loss =argmax \prod p(x\|\theta)= argmax_{\theta}log(p(x\| \theta)) θMLE=argmaxθLoss=argmax∏p(x∥θ)=argmaxθlog(p(x∥θ)) | θ M A P = a r g m a x θ p ( θ ∥ x ) = a r g m a x p ( x ∥ θ ) ∗ p ( θ ) \theta_{MAP}=argmax_{\theta}p(\theta\|x) = argmaxp(x\| \theta)*p(\theta) θMAP=argmaxθp(θ∥x)=argmaxp(x∥θ)∗p(θ) |
序 | 因为这里 p ( θ ∥ X ) = p ( x ∥ θ ) ∗ p ( θ ) / p ( x ) 正 比 于 p ( x ∥ θ ) ∗ p ( θ ) p(\theta \| X)= p(x\| \theta)*p(\theta)/p(x) 正比于 p(x\| \theta)*p(\theta) p(θ∥X)=p(x∥θ)∗p(θ)/p(x)正比于p(x∥θ)∗p(θ) | |
p ( x ∥ θ ) 称 为 似 然 p(x\|\theta)称为似然 p(x∥θ)称为似然 | p ( θ ∥ x ) 称 为 后 验 p(\theta\|x)称为后验 p(θ∥x)称为后验 | p ( θ ) 称 为 先 验 p(\theta)称为先验 p(θ)称为先验 |
模型使用(预测) | 直接将参数代入 | 通过 θ \theta θ将待测样本 x ^ \hat{x} x^与总样本集X 联系再一起, P( x ^ ∥ X \hat{x} \| X x^∥X)= ∫ θ p ( x ^ , θ ∥ X ) d θ = ∫ θ p ( x ^ ∥ θ ) p ( θ ∥ X ) d θ \int_{\theta}p(\hat{x},\theta \| X) d \theta=\int_{\theta}p(\hat{x} \| \theta)p(\theta \| X ) d \theta ∫θp(x^,θ∥X)dθ=∫θp(x^∥θ)p(θ∥X)dθ |