一、朴素贝叶斯算法数学原理
朴素贝叶斯算法属于监督学习的生成学习模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。
(1)算法思路: 通过从训练数据学习先验概率分布和条件概率分布来学习联合概率分布,然后基于特征条件独立和贝叶斯定理求得后验概率,将输入x分到后验概率最大的类别中,采用基于0,1损失函数下的期望风险最小化原则学习模型。
(2)两个特点
朴素: 假设各特征之间相互独立;(很强的假设,在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大)
贝叶斯: 基于贝叶斯定理。
贝叶斯公式推导如下:
(3)参数估计方法:采用极大似然估计法/贝叶斯估计
采用极大似然估计法来估计先验概率和条件概率分布,但会出现所要估计的概率值为0的情况,所以采用贝叶斯估计,思路就是在随机变量各个取值后加一个正数a,当a=0时,即为极大似然估计法
特别的,当a=1时,叫做拉普拉斯平滑(参数为1时的贝叶斯估计),就是对先验概率的分子(划分的计数)加1,分母加上类别数;对条件概率分子加1,分母加上对应特征的可能取值数量。这样在解决零概率问题的同时,也保证了概率和依然为1。
(4)应用:
文本分类(互联网新闻的分类)
垃圾邮件的筛选
(5)优缺点:
优点:
算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可!)
数据较小的时候仍然有效,可分类多类别
分类过程中时空开销小&