机器学习(李宏毅)—— Classification

如果简单的将Classification看成一个Regression的问题,会发现Regression的评价标准并不适用于Classification(回归的本质是让损失函数尽可能的小,而分类只看重类别并不关心损失函数的大小)。在处理过程中将目标可描述化(用一个或一组数字描述目标)。

朴素贝叶斯算法

假设某一种事物只有B_{1}B_{2}两种类别,从该种事物中任取一个记为A。根据贝叶斯概率公式P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A)}和全概率公式P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})可以得到P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}
P(B_{1}|A)>0.5时将A划分为B_{1}类别,否则将其划分为B_{2}类别。将B_{1}B_{2}两种类别的分布看成高斯分布,则通过B_{1}B_{2}两种类别已有的数据训练得到其高斯分布的模型并通过训练得到的模型来预测从B_{1}B_{2}类别取到A的概率,即{P(A|B_{1}){P(A|B_{2}),然后代入上式即可求得P(B_{1}|A)
如何求得高斯分布的模型?
Gaussian Distribution:f_{\mu ,\Sigma }(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{\left | \Sigma \right |^{1/2}}exp\left \{ -\frac{1}{2}(x-\mu )^{T}\Sigma ^{-1}(x-\mu ) \right \},均值\mu,协方差矩阵\Sigma
Maximum Likelihood:假设x^{1},x^{2},x^{3},...x^{79}是从被给的高斯分布(\mu ^{*},\Sigma ^{*})所生成的79个数据,根据极大似然估计原理L(\mu ,\Sigma )=f_{\mu ,\Sigma }(x^{1})f_{\mu ,\Sigma }(x^{2})f_{\mu ,\Sigma }(x^{3})......f_{\mu ,\Sigma }(x^{79}),可以得到\mu ^{*},\Sigma ^{*}=arg\, \, \underset{\mu ,\Sigma }{max}L(\mu ,\Sigma),对其微分求解可以得到\mu ^{*}=\frac{1}{79}\sum_{n=1}^{79}x^{n},\Sigma ^{*}=\frac{1}{79}\sum_{n=1}^{79}(x^{n}-\mu ^{*})(x^{n}-\mu ^{*})^{T},在将(\mu ^{*},\Sigma ^{*})带入高斯分布f_{\mu ,\Sigma }(x)中即可预测概率密度。在求解高斯分布时常常共用一个协方差矩阵\Sigma(不同类别的\Sigma _{i}按加权平均得到新的\Sigma)。
对于上式,有P(B_{1}|A)=\frac{P(B_{1})P(A|B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}=\frac{1}{1+\frac{P(A|B_{2})P(B_{2})}{P(A|B_{1})P(B_{1})}}=\frac{1}{1+exp(-z)},令z=ln\frac{P(A|B_{1})P(B_{1})}{P(A|B_{2})P(B_{2})},其中\sigma (z)=\frac{1}{1+exp(-z)}称为Sigmoid函数。将高斯分布概率密度带入其中可得z=ln\frac{|\Sigma ^{2}|^{1/2}}{|\Sigma ^{1}|^{1/2}}-\frac{1}{2}x^{T}(\Sigma ^{1})^{-1}x+(\mu ^{1})^{T}(\Sigma ^{1})^{-1}x-\frac{1}{2}(\mu ^{1})^{T}(\Sigma ^{1})^{-1}\mu ^{1}+\frac{1}{2}x^{T}(\Sigma ^{2})^{-1}x-(\mu ^{2})^{T}(\Sigma ^{2})^{-1}x+\frac{1}{2}(\mu ^{2})^{T}(\Sigma ^{2})^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}},
其中N_{1},N_{2}分别是B_{1},B_{2}类别的个数,当这两种类别的协方差矩阵\Sigma=\Sigma_{1}=\Sigma_{2}时上式化简为z=(\mu ^{1}-\mu ^{2})^{T}(\Sigma )^{-1}x-\frac{1}{2}(\mu ^{1})^{T}(\Sigma )^{-1}\mu ^{1}+\frac{1}{2}(\mu ^{2})^{T}(\Sigma )^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}},令w^{T}=(\mu ^{1}-\mu ^{2})^{T}(\Sigma )^{-1},b=-\frac{1}{2}(\mu ^{1})^{T}(\Sigma )^{-1}\mu ^{1}+\frac{1}{2}(\mu ^{2})^{T}(\Sigma )^{-1}\mu ^{2}+ln\frac{N_{1}}{N_{2}}可得P(B_{1}|A)=\sigma (w\cdot x+b),故已知w,b即可求得P(B_{1}|A)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值