[学习笔记]分类算法之朴树贝叶斯

最新推荐文章于 2022-10-03 15:07:42 发布

hxxiaopei

最新推荐文章于 2022-10-03 15:07:42 发布

阅读量1w

点赞数

分类专栏：机器学习文章标签：算法任务 c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxxiaopei/article/details/7695730

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

from: http://www.hxxiaopei.com/?p=126

我理解朴树贝叶斯法是实现最简单的分类算法，也是非常有效的分类算，工程上容易被接受，很常用，属于生成模型。

朴树贝叶斯模型:

\{(x_{1},y_{1}),(x_{2},y_{2}).....(x_{N},y_{N})}训练数据，类别集合，输入特征向量为x，表示第i个样本点特征向量的j分量，在后面的计算中，会有不同的取值。

朴树贝叶斯首先基于训练集合学习联合概率分布p(X,Y)，然后基于该模型，针对输入特征向量x,计算出后验概率最大的类别作为输出

，所以学习联合分布的的任务就是通过训练数据学习

其中，同时又存在个不同的取值，所以模型参数个数为当较大时，模型过多。

所以朴树贝叶斯法对条件概率做了很强的假设：特征条件独立，即

参数个数为，引入这个假设降低了算法的复杂度，但是牺牲了准确率。

训练过程也比较简单，基于训练集合，定义似然函数

同时满足约束条件:

其中表示特征向量第j个分量的第l个取值，注意为了计算方便，这里假设每个分量有相同的取值个数，实际上是不一样的。

构建拉格朗日函数

接下来求解很简单,极大似然估计，分别对参数求导即可，注意里面有拉格朗日乘子.

求解，有

其中

则有，将其带入约束条件，

则有

有

最后有

同样方法可以求得：

贝叶斯估计：

存在一个问题，如果p(x=f|y=c)在训练中没有出现过，则有p(x=f|y=c)=0,导致整个结果等0，显然不是我们想要的。

引入，

虽然引入，有，满足约束

如果则是拉普拉斯估计。

同样

分母中的系数，依赖于类别的个数，即不同参数的个数

思考：

1.朴树贝叶斯有强假设，特征条件独立这个假设对准确率牺牲成都多大，相对于其他分类方法，比如logistic 回归，准确率怎么样

2.特征值为离散值，实际使用时，将连续value离散化，使用朴树贝叶斯，与直接使用其他分类法，准确率是否有区别

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。