机器学习算法原理——贝叶斯定理

Dragon水魅

已于 2023-03-01 21:27:07 修改

阅读量315

点赞数

分类专栏：机器学习算法及原理文章标签：机器学习算法人工智能

于 2023-02-21 09:28:35 首次发布

本文链接：https://blog.csdn.net/qq_43650934/article/details/129136013

版权

机器学习算法及原理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

贝叶斯定理

已知：

存在 $K$ 类 $c_1, c_2, \cdots, c_k$ ，给定一个新的实例 $(x^{(1)}, x^{(2)}, \cdots, x^{(n)})$

问：该实例归属第 $c_i$ 类的可能性有多大？
$P\left(Y=c_i \mid X=x\right)=\frac{P\left(X=x \mid Y=c_i\right) \cdot P\left(Y=c_i\right)}{P(X=x)}$
即：
$P\left(Y=c_i \mid X=x\right)=\frac{P\left(X=x \mid Y=c_i\right) \cdot P\left(Y=c_i\right)}{\sum_{i=1}^K P\left(X=x \mid Y=c_i\right) \cdot P\left(Y=c_i\right)}$

训练数据集：
${(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}$

输入： $\mathcal{X}\subseteq \mathbf{R}^n, x \in \mathcal{X}$
输出： $\mathcal{Y} = {c_1, c_2, \cdots, c_k}, y \in \mathcal{Y}$

生成方法：

学习联合概率分布：
$P (X, Y)$

先验概率分布：
$c_i), i = 1, 2, \cdots, K$
条件概率分布：
$c_i) = P(X^{(1)} = x^{(1)}, \cdots, X^{(n)} = x^{(n)}|Y = c_i)$
联合概率分布：
$c_i)P(Y = c_i), i = 1, 2, \cdots, K\\$

贝叶斯定理简化为：
$c_i | X = x) = \frac{P(X , Y)}{P(X = x)}$

后验概率最大化

0-1 损失函数：
$\begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}$
期望风险：
$R_{exp}(f)=E[L(Y,f(X))]$
模型关于条件概率分布，期望风险为条件期望风险：
$R_{exp}(f) = E_X \sum_{i=1}^{K}L\left(c_{i},\ y\right)P\left(y=c_{i}\mid X=x\right)$
为使期望风险最小化，只需对 $X = x$ 逐个极小化：
$\begin{align} f(x) &= \arg \min _{y \in \mathcal{Y}} \sum_{i=1}^K L(c_i, y) P\left(y = c_i \mid X=x\right) \\ &= \arg \min _{y \in \mathcal{Y}} \sum_{i=1}^K P\left(y \neq c_i \mid X=x\right)\\ &=\arg \min _{y \in \mathcal{Y}} (1 - P\left(y = c_i \mid X=x\right))\\ &= \arg \max _{y \in \mathcal{Y}} P\left(y = c_i \mid X=x\right) \end{align}$
此时，期望风险最小化就转变为后验概率最大化：
$f(x)=\arg\operatorname*{max}_{c_{i}}P(c_{i}|X=x)$

极大似然估计

使似然函数（即联合密度函数）达到最大的参数值。

假设 $X$ 的密度函数为 $\beta)$ ，如果简单随机样本 $X_1, X_2, \cdots, X_N$ 相互独立，则其联合概率密度函数为
$L(x_{1},\cdots,x_{N};\beta)=\prod_{i=1}^{N}f(x_{i},\beta)$
当 $(X_1, X_2, \cdots, X_N)$ 取定值 $x_1, x_2, \cdots, x_N$ 时， $L(x_{1},\cdots,x_{N};\beta)$ 是 $\beta$ 的函数，即样本的似然函数。

$\beta$ 的极大似然估计 $\hat{\beta}$
$\hat{\beta}=\underset{\beta \in \Theta}{\arg \max } L\left(x_1, \cdots, x_N ; \beta\right)$
记似然函数 $L(\beta) = L(x_{1},\cdots,x_{N};\beta)$ 。

求取极大似然估计

遍历

找到参数空间，将每一个参数代入似然函数，找到 $\beta$ 的极大似然估计 $\hat{\beta}$ 。

数值计算

直接通过似然函数 $L(\beta)$ 求解
- 当 $L(\beta)$ 可微时，可通过方程组
${\frac{\partial L(\beta)}{\partial\beta_{1}}}=0,{\frac{\partial L(\beta)}{\partial\beta_{2}}}=0,\cdot\cdot\;,{\frac{\partial L(\beta)}{\partial\beta_{m}}}=0$

求得 $L(\beta)$ 的极大值点。
- 当 $L(\beta)$ 不存在偏导数时，需要直接研究 $L(\beta)$ ，寻找最大值点。
通过对数似然函数 $L(\beta)$ 求解 $\hat{\beta}$ 也是 $L(\beta)$ 的最大值点，
- 当 $L(\beta)$ 可微时，可通过下列方程组，
$\frac{\partial\ln L(\beta)}{\partial\beta_{1}}=0,\frac{\partial\ln L(\beta)}{\partial\beta_{2}}=0,\cdot\cdot\,,\frac{\partial\ln L(\beta)}{\partial\beta_{m}}=0$

求解，判断根是不是最大值点。
- 当 $L(\beta)$ 不存在偏导数时，需要直接研究 $L(\beta)$ ，寻找最大值点。

迭代

当无法通过似然函数求得解析解，可以通过迭代法求得数值解。每一次计算，都从变量的一个初始值出发寻找一系列近似解，不断迭代得到逼近值。

朴素贝叶斯

输入：训练集：
$T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\}$
实例 $(x^{(1)}, x^{(2)}, \cdots, x^{(n)});$

输出：实例 $x$ 所属类别 $y$

假设：实例特征之间相互独立
$\begin{align} &P\left(X=x \mid Y=c_i\right)=\prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right) \\ &\Longrightarrow P(X=x)=\sum_{i=1}^K P\left(Y=c_i\right) \prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right) \\ &\Longrightarrow P\left(Y=c_i \mid X=x\right)=\frac{P\left(X=x \mid Y=c_i\right) \cdot P\left(Y=c_i\right)}{\sum_{i=1}^K P\left(Y=c_i\right) \prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right)} \\ &\Longrightarrow P\left(Y=c_i \mid X=x\right)=\frac{P\left(Y=c_i\right) \prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right)}{\sum_{i=1}^K P\left(Y=c_i\right) \prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right)} \end{align}$
分母均相同，分类由分子确定：
$y=\arg \max _{c_i} P\left(Y=c_i\right) \prod_{j=1}^n P\left(X^{(j)}=x^{(j)} \mid Y=c_i\right)$

贝叶斯估计

先验概率的贝叶斯估计：
$P_{\lambda}(Y=c_{k})={\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda}}$
条件概率的贝叶斯估计：
$P_{\lambda}(X^{(j)}=a_{j l}|Y=c_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{j l},y_{i}=c_{k})+\lambda}{\sum_{i=1}^{N}I(y_{i}=c_{k})+S_{j}\lambda}$
$\lambda \geq 0$ ， $\lambda = 0$ 时为极大似然估计， $\lambda = 1$ 时为拉普拉斯平滑（Laplacian Smoothing）。

拉普拉斯平滑思想

贝叶斯估计：
$P_{\lambda}(Y=c_{k})={\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda}}$
正则化：
$\operatorname*{min}_{f\in\mathcal{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},\,f(x_{i}))+\lambda J(f)$
将 $\sum_{i=1}^{N}I(y_{i}=c_{k})$ 计为 $N_k$ ，表示 $N$ 个样本中有 $N_k$ 个实例点属于 $c_k$ ；

将 $P_{\lambda}(Y=c_{k})$ 计为 $\theta_k$ ，

此时有：
$\begin{align} &\theta_k(N +K\lambda) = N_k + \lambda\\ &\Longrightarrow (\theta_k N - N_k) + \lambda (K {\theta_k} - 1) = 0\\ \end{align}$
令 $\theta_k N - N_k = 0$ ， $\theta_k = \frac{N_k}{N}$ ，为极大似然；

令 $\lambda (K \theta_k - 1) = 0$ ， $\theta_k = \frac{1}{K}$ ，相当于 $\theta$ 的先验概率。

此处， $\lambda(K \theta_k - 1)$ 充当正则项，即：拉普拉斯平滑下的贝叶斯估计，不能只凭样本说话，也要有对模型的假设（先验概率）。

总结归纳

贝叶斯定理中，分母的 ${\sum_{i=1}^K P\left(X=x \mid Y=c_i\right) \cdot P\left(Y=c_i\right)}$ 其实就是全概率公式。
后验概率由先验概率和条件概率共同求得。
先验概率和条件概率可以求得联合概率分布。
期望是指某件事大量发生后的平均结果，反应了随机变量平均取值的大小，定义为： $E(X)=\sum_{k=1}^{\mathrm{K}}\,x_{k}p_{k}$ 。
（2）式中， $L(c_i, y)$ 为 0 - 1 损失函数，若使 $f (x)$ 有意义， $L(c_i, y)$ 应为 1 ，此时预测错误，求和公式发生改变： $\sum_{i=1}^K L(c_i, y) P\left(y = c_i \mid X=x\right) \Longrightarrow \sum_{i=1}^K P\left(y \neq c_i \mid X=x\right)$
似然函数并不是联合密度函数，极大似然估计实际上就是将概率密度估计问题转化为参数估计问题。
极大似然估计是一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。总结下来就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
对于函数 $\theta)$ ：

若 $\theta$ 已知， $x$ 是变量，该函数为概率函数（probability function），它描述对于不同的样本点，其出现概率是多少。
若 $x$ 已知， $\theta$ 是变量，该函数为似然函数（likelihood function），它描述对于不同的模型参数，出现这个样本点的概率是多少。
朴素贝叶斯的“朴素”意为：假设特征之间相互独立。
若特征之间存在依存关系，模型就变成了贝叶斯网络。
极大似然估计可能会出现所要估计的概率值为 0 的情况，此时可以使用拉普拉斯平滑避免。
贝叶斯估计中：
$\sum_{k = 1}^{K} P_{\lambda} (Y = c_k) = 1$

$\sum_{l = 1}^{S_j} P_{\lambda} (s^{(j)} = a_{jl} | Y = c_k) = 1$

符合概率分布。

Dragon水魅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法原理——贝叶斯定理

贝叶斯定理中，分母的PXx∑i1KPXx∣Yci⋅PYciPXx∑i1KPXx∣Yci⋅PYci其实就是全概率公式。后验概率由先验概率和条件概率共同求得。先验概率和条件概率可以求得联合概率分布。（13）式中，LciyL(c_i, y)Lciy为 0 - 1 损失函数，若使fxf(x)fx。
复制链接

扫一扫

专栏目录