机器学习（李宏毅）—— Classification

wueeuw

已于 2022-03-15 16:26:29 修改

阅读量1.5k

点赞数 1

分类专栏：机器学习（李宏毅）文章标签：机器学习分类深度学习

于 2022-03-14 22:37:26 首次发布

本文链接：https://blog.csdn.net/mooc1212/article/details/123464686

版权

机器学习（李宏毅）专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文探讨了将分类问题视为回归问题的不适用性，并详细介绍了朴素贝叶斯算法在二分类问题中的应用。通过贝叶斯概率和高斯分布模型，解释了如何利用极大似然估计来确定类别归属。同时，讨论了Sigmoid函数在概率转换中的作用，以及在处理分类问题时协方差矩阵的处理策略。

摘要由CSDN通过智能技术生成

如果简单的将Classification看成一个Regression的问题，会发现Regression的评价标准并不适用于Classification(回归的本质是让损失函数尽可能的小,而分类只看重类别并不关心损失函数的大小)。在处理过程中将目标可描述化(用一个或一组数字描述目标)。

朴素贝叶斯算法

假设某一种事物只有 $B_{1}$ 和 $B_{2}$ 两种类别，从该种事物中任取一个记为 $A$ 。根据贝叶斯概率公式 $P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A)}$ 和全概率公式 $P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})$ 可以得到 $P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}$ 。
当 $P(B_{1}|A)>0.5$ 时将 $A$ 划分为 $B_{1}$ 类别，否则将其划分为 $B_{2}$ 类别。将 $B_{1}$ 和 $B_{2}$ 两种类别的分布看成高斯分布，则通过 $B_{1}$ 和 $B_{2}$ 两种类别已有的数据训练得到其高斯分布的模型并通过训练得到的模型来预测从 $B_{1}$ 或 $B_{2}$ 类别取到 $A$ 的概率，即 ${P(A|B_{1})$ 和 ${P(A|B_{2})$ ，然后代入上式即可求得 $P(B_{1}|A)$ 。
如何求得高斯分布的模型？
Gaussian Distribution： $f_{\mu ,\Sigma }(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{\left | \Sigma \right |^{1/2}}exp\left \{ -\frac{1}{2}(x-\mu )^{T}\Sigma ^{-1}(x-\mu ) \right \}$ ，均值 $\mu$ ，协方差矩阵 $\Sigma$ 。
Maximum Likelihood：假设 $x^{1},x^{2},x^{3},...x^{79}$ 是从被给的高斯分布 $(\mu ^{*},\Sigma ^{*})$ 所生成的79个数据，根据极大似然估计原理 $L(\mu ,\Sigma )=f_{\mu ,\Sigma }(x^{1})f_{\mu ,\Sigma }(x^{2})f_{\mu ,\Sigma }(x^{3})......f_{\mu ,\Sigma }(x^{79})$ ，可以得到 $\mu ^{*},\Sigma ^{*}=arg\, \, \underset{\mu ,\Sigma }{max}L(\mu ,\Sigma)$ ，对其微分求解可以得到 $\mu ^{*}=\frac{1}{79}\sum_{n=1}^{79}x^{n}$ , $\Sigma ^{*}=\frac{1}{79}\sum_{n=1}^{79}(x^{n}-\mu ^{*})(x^{n}-\mu ^{*})^{T}$ ,在将 $(\mu ^{*},\Sigma ^{*})$ 带入高斯分布 $f_{\mu ,\Sigma }(x)$ 中即可预测概率密度。在求解高斯分布时常常共用一个协方差矩阵 $\Sigma$ (不同类别的 $\Sigma _{i}$ 按加权平均得到新的 $\Sigma$ )。
对于上式，有 $P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}=\frac{1}{1+\frac{P(A|B_{2})P(B_{2})}{P(A|B_{1})P(B_{1})}}=\frac{1}{1+exp(-z)}$ ,令 $z=ln\frac{P(A|B_{1})P(B_{1})}{P(A|B_{2})P(B_{2})}$ ,其中 $\sigma (z)=\frac{1}{1+exp(-z)}$ 称为Sigmoid函数。将高斯分布概率密度带入其中可得 $z=ln\frac{|\Sigma ^{2}|^{1/2}}{|\Sigma ^{1}|^{1/2}}-\frac{1}{2}x^{T}(\Sigma ^{1})^{-1}x+(\mu ^{1})^{T}(\Sigma ^{1})^{-1}x-\frac{1}{2}(\mu ^{1})^{T}(\Sigma ^{1})^{-1}\mu ^{1}+\frac{1}{2}x^{T}(\Sigma ^{2})^{-1}x-(\mu ^{2})^{T}(\Sigma ^{2})^{-1}x+\frac{1}{2}(\mu ^{2})^{T}(\Sigma ^{2})^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}}$ ,
其中 $N_{1},N_{2}$ 分别是 $B_{1},B_{2}$ 类别的个数，当这两种类别的协方差矩阵 $\Sigma=\Sigma_{1}=\Sigma_{2}$ 时上式化简为 $z=(\mu ^{1}-\mu ^{2})^{T}(\Sigma )^{-1}x-\frac{1}{2}(\mu ^{1})^{T}(\Sigma )^{-1}\mu ^{1}+\frac{1}{2}(\mu ^{2})^{T}(\Sigma )^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}}$ ,令 $w^{T}=(\mu ^{1}-\mu ^{2})^{T}(\Sigma )^{-1}$ , $b=-\frac{1}{2}(\mu ^{1})^{T}(\Sigma )^{-1}\mu ^{1}+\frac{1}{2}(\mu ^{2})^{T}(\Sigma )^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}}$ 可得 $P(B_{1}|A)=\sigma (w\cdot x+b)$ ,故已知 $w,b$ 即可求得 $P(B_{1}|A)$ 。