朴素贝叶斯方法

最新推荐文章于 2022-07-30 19:49:52 发布

aihaly

最新推荐文章于 2022-07-30 19:49:52 发布

阅读量2.8k

点赞数

分类专栏：统计 Math Machine learning 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aihali/article/details/45093861

版权

Machine learning 同时被 3 个专栏收录

98 篇文章 0 订阅

订阅专栏

84 篇文章 1 订阅

订阅专栏

55 篇文章 1 订阅

订阅专栏

前言

朴素贝叶斯（NaïveBayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先是基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯方法实现简单，学习与预测的效率都很高，是一种常用的方法。

1.1朴素贝叶斯的学习与分类

1.1.1基本方法

输入空间：，是定义在输入空间上的随机向量

输出空间：，为输出空间上的随机变量

是以上两者的联合概率分布。训练数据集：

条件概率分布：

（1）

于是学习到联合概率分布。

要注意到朴素贝叶斯法对条件概率分布做了条件独立性假设。由于这是一个较强的假设，朴素贝叶斯也因此得名，具体而言：

（2）

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使得朴素贝叶斯变得简单，但有时会牺牲一定的分类准确率。

朴素贝叶斯法在分类时，对给定的输入x，通过学习到的模型计算后验概率分布，将后验概率最大的类作为x类的输出。后验概率计算根据贝叶斯定理进行：

（3）

将（2）式带入（3）式有：

（4）

这便是朴素贝叶斯分类的基本方法，于是朴素贝叶斯分类器可以表示成：

（5）

这里要注意到在（5）式中，分母对于所有的都是相同的，所以：

1.1.2后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。假设选择0-1损失函数。

式中是分类决策函数。这时，期望风险函数为

期望是对联合分布取的。由此取条件期望：

为了使期望风险最小化，只需要逐个最小化，由此可以获得：

这样一来，根据期望风险最小化准则就可以获得到后验概率最大化准则：

这便是朴素贝叶斯法所采用的原理。

2.2朴素贝叶斯参数估计

2.2.1极大似然估计

在朴素贝叶斯方法中，学习意味着估计和。可以应用极大似然估计法估计相应的概率。先验概率的极大似然估计是：

（6）

设第个特征向量可能取的集合为，条件概率的极大似然估计是：

（7）

式中，表示的是第个样本的第个特征向量；是第个特征向量可能取的第个值。同时为指示函数。

2.2.2学习与分类算法（例子说明）

2.2.3贝叶斯估计

用前面的极大似然估计有的时候会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计，具体而言，条件概率的贝叶斯估计是：

（8）

式中的。等价于在随机变量各个取值的频数上赋予一个正数。当的时候就是极大似然估计。常取，这时称为拉普拉斯（Laplace smoothing）。此时的先验贝叶斯估计是：

（9）

参考文献：李航老师的《统计学习方法》

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯方法

前言朴素贝叶斯（NaïveBayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先是基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯方法实现简单，学习与预测的效率都很高，是一种常用的方法。1.1朴素贝叶斯的学习与分类1.1.1基本方法
复制链接

扫一扫

专栏目录

aihaly CSDN认证博客专家 CSDN认证企业博客

码龄14年

75: 原创

17万+: 周排名

103万+: 总排名

43万+: 访问

: 等级

4336: 积分

62: 粉丝

60: 获赞

8: 评论

283: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL删除存储过程和函数
MING军: 如果不小心把存储过程和函数删了，还能恢复吗？
Mysql中的循环语句
SmallWhitee: sql语句注释是以"-- xxx"的,你这个代码哪里复制粘贴的,都不自己运行下就贴上来了吗?而且代码里很多看不到的干扰符,看不到,执行会出错,报 1064
R语言-循环语句
陈天睡懒觉^_^: 请问博主，赌客例子中的while循环判断条件为什么填TRUE，这样不是会进入死循环吗？
R语言-循环语句
weixin_45040195: 不错不错
柯西-施瓦茨不等式
尽晨: 你的头像有点皮

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。