机器学习---背后数学原理--开篇：频率派 VS 贝叶斯派

最新推荐文章于 2022-01-31 11:33:32 发布

丁磊_Ml

最新推荐文章于 2022-01-31 11:33:32 发布

阅读量317

点赞数

分类专栏：机器学习-----背后数学原理推导文章标签：机器学习

本文链接：https://blog.csdn.net/MosBest/article/details/106252211

版权

10 篇文章 0 订阅

订阅专栏

机器学习方法最终引入概率是一个必然趋势，于是演化成两大流派：

本片blog就是来讲解这两大流派的异同。

前提假设：
样本 $x_i = (x_{i1}, x_{i2}, ... , x_{ip})$ : 第i个样本，且每个样本为p维向量
样本集 X: 共有N个样本，则 $X_{N*P}=(x_{ij})$
参数 $\theta$ : parameter

对于每一个样本 $x_i$ ,都是一个概率变量，则都服从某一个概率分布 $\sim p(x| \theta )$

英文简写:
MLE: 最大似然估计
MAP：最大后验估计
r.v. : 随机变量
iid: 独立同分布

模型	频率派	贝叶斯派
演变	统计机器学习	概率图模型
核心	优化问题	求积分问题
思路	1.创建一个模型 2.设定一个loss函数 3 .利用一个算法(梯度下降，随机梯度下降) 最小化loss，算出参数，即可得到最终模型	求积分问题，利用贝叶斯定理分解出 $p(\theta \\| X)$ ，这期间会遇到求积分，但是有的时候积分项很难求解，就必须想个方法代替积分，比如采样，比如蒙特卡罗，MCMC
对于参数 $\theta$	是一个未知的常量	不是常量，而是一个随机变量，即 $\theta$ 服从某一个概率分布
目的	求解出常量 $\theta$	求解出随机变量 $\theta$ 的概率分布中概率最高得对应的 $\theta$
模型	$\theta _{MLE} = argmax_{\theta}Loss =argmax \prod p(x\\|\theta)= argmax_{\theta}log(p(x\\| \theta))$	$\theta_{MAP}=argmax_{\theta}p(\theta\\|x) = argmaxp(x\\| \theta)*p(\theta)$
序		因为这里 $p(\theta \\| X)= p(x\\| \theta)p(\theta)/p(x) 正比于 p(x\\| \theta)p(\theta)$
$p(x\\|\theta)称为似然$	$p(\theta\\|x)称为后验$	$p(\theta)称为先验$
模型使用(预测)	直接将参数代入	通过 $\theta$ 将待测样本 $\hat{x}$ 与总样本集X 联系再一起, P( $\hat{x} \\| X$ )= $\int_{\theta}p(\hat{x},\theta \\| X) d \theta=\int_{\theta}p(\hat{x} \\| \theta)p(\theta \\| X ) d \theta$

学习资料

在这里插入图片描述

关注

专栏目录