＜机器学习＞＜白板推导系列＞＜一＞

SannyZhou

已于 2022-05-24 14:49:54 修改

阅读量342

点赞数

文章标签：机器学习

于 2020-08-18 11:39:09 首次发布

本文链接：https://blog.csdn.net/juzishudesenlin/article/details/108072225

版权

Introduction

- - - - 参考书籍：
      - 参考视频：
Notes
频率派的观点
贝叶斯派的观点

对于概率模型而言，存在两种学派：频率派和贝叶斯派。

频率派 -> 统计机器学习
贝叶斯派 -> 概率图模型

参考书籍：

李航《统计学习方法，侧重于以频率派的较角度，十个算法（感 K 朴决逻，支提(boosting) E 隐条）
周志华 “西瓜书”《机器学习》，囊括多种算法
PRML 模式识别与机器学习，侧重于以贝叶斯派的角度，（回分神核稀；图混近采连；顺组）
MLAPP 以概率的角度看机器学习，百科全书，侧重于以贝叶斯派的角度
ESL 统计学习的基本要素，侧重于以频率派的较角度
Deep Learning 花书圣经 [中译本，张志华团队]

参考视频：

台大林轩田机器学习基石->讲得很精彩，也很通俗化（VC therory; 正则化；线性模型：linear regression，logistic regression, PLA，感知机)；机器学习技法（SVM->讲的很好，决策树，随机森林，神经网络，deep learning->浅谈）
张志华机器学习导论（以频率派的角度）统计机器学习（以贝叶斯的角度，偏理论数学）
徐亦达 2015 概率模型（EM，MCMC，HMM，滤波算法） github/notes（很全面）
台大李宏毅 ML2017 MLDS2018

Notes

样本集 X 包含N个样本，每个样本的特征维度为p（也就是说每一样本是长度为p的列向量）：
$(x^1, x^2, ..., x^N)^T \in \mathbb{R^{N \times p}} \\ x^i = (x_1^i, x_2^i, ..., x_p^i)^T \in \mathbb{R^{p \times1}}$

概率模型：
$\sim p(x|\theta)$

频率派的观点

对于概率模型 $\sim p(x|\theta)$ ，频率派认为参数 $\theta$ 是未知常量，而数据样本 $x$ 是随机变量。关注点是数据，而将未知常量估计出来。最常用的就是采用最大似然估计去对参数进行估计：
$x_i \sim p(x|\theta) \quad satified \quad i.i.d. \quad condition\\ p(X|\theta） = \prod_{i=1}^N p(x^i|\theta) \\ \mathcal{L}(\theta) = log p(X|\theta）\\ \theta_{MLE} = \mathop{\arg\max} log p(X|\theta) = \mathop{\arg\max} \sum_{i=1}^N log p(x^i|\theta)$
频率派对应的是统计机器学习方法，求解问题实际上是一个优化问题，通过构建模型，得到 $\quad function$ ，最后通过最小化损失函数求解得到参数。

贝叶斯派的观点

对于概率模型 $\sim p(x|\theta)$ ，贝叶斯派认为参数是服从某种概率分布的随机变量 $\theta \sim p(\theta)$ 。该分布称为参数的先验分布。参数的后验分布为：
$p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta}$
其中，概率分布 $p(X|\theta)$ 称为似然。
常用的参数估计方法为最大后验概率估计：
$\theta_{MAP} = \mathop{\arg\max} log p(\theta|X) = \mathop{\arg\max} p(X|\theta) \cdot p(\theta)$
贝叶斯估计：
$p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta}$
贝叶斯预测，对于给定预测样本：
$p(\tilde{x}|X) = \int_{\theta}p(\tilde{x},\theta|X)d\theta = \int_{\theta}p(\tilde{x}|\theta)\cdot p(\theta|X)d\theta$
贝叶斯派对应的是概率图模型，实际上是一个求解积分的问题，可以采用Monte Carlo Method(MCMC)进行采样。

SannyZhou

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
＜机器学习＞＜白板推导系列＞＜一＞

IntroductionNotes频率派的观点贝叶斯派的观点对于概率模型而言，存在两种学派：频率派和贝叶斯派。Notes样本集 X 包含N个样本，每个样本的特征维度为p（也就是说每一样本是长度为p的列向量）：X=(x1,x2,...,xN)T∈RN×pxi=(x1i,x2i,...,xpi)T∈Rp×1X = (x^1, x^2, ..., x^N)^T \in \mathbb{R^{N \times p}} \\x^i = (x_1^i, x_2^i, ..., x_p^i)^T \in
复制链接

扫一扫