机器学习算法—朴素贝叶斯（分类方法）超详细！！！

最新推荐文章于 2023-02-25 22:25:42 发布

VIP文章 cav_kd

最新推荐文章于 2023-02-25 22:25:42 发布

阅读量4.3k

点赞数 8

分类专栏：笔记机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/komed/article/details/106577926

版权

机器学习算法—朴素贝叶斯（分类方法）超详细！！！

基本思想：

朴素贝叶斯为分类的一种算法，将各个样本在各个标签中的概率进行对比，并将样本归于概率最大的标签。（个人理解，可能不够完善，有误可评论或私发纠正，谢谢~~）

思路进阶：

一维：

我们现在有一个数据点X（点内有且只有一个特征），标签为C（C1,C2两个标签），现在需要对X进行分类。需要通过比较X为C1的概率P(C1|X)和X为C2的概率P(C2|X)

通过贝叶斯公式得出

两者比较可以发现最后是分子之间大小的比较

多维：

我们现在有一个数据点X（点内有N个特征），标签为C（C1,C2两个标签），现在需要对X进行分类。需要通过比较X为C1的概率P(C1|X)和X为C2的概率P(C2|X)

通过贝叶斯公式得出

由于朴素贝叶斯算法的思想是假设各个特征值相互独立，于是X中N个特征值X1 X2…Xn相互独立

思路进阶重点！！！

数据点X中的各个特征值在标签C中必须同时成立，于是使用乘法公式化简可得：

P(X|C1)*P(C1)=P(X1|C1)P(X2|C1)……P(Xn|C1)*P(C1)

P(X|C2)*P(C2)=P(X1|C2)P(X2|C2)……P(Xn|C2)*P(C2)

最后比较两者概率大小即可进行分类

多个数据点分类即循环该算法

多个标签即循环计算各个数据点在各个标签中的概率

多个特征值即循环计算每个数据点的每个特征值在每个标签中的概率

代码实战！！

我们借用《机器学习实战》的例题来运用一下我们的朴素贝叶斯算法。这次我们的目的是将文档进行自动分类。

准备数据（将单词转换成数字）

在这里插入图片描述

my dog has flea problems help please#复制放入新建的txt文件即可
maybe not take him to dog park stupid
my dalmation is so cute I love him
stop posting stupid worthless garbage
mr licks ate my steak how to stop him
quit buying worthless dog food stupid

定义一个load_data函数进行数据清洗：

def

最低0.47元/天解锁文章

cav_kd

关注

8
点赞
踩
64

收藏

觉得还不错? 一键收藏
6
评论
机器学习算法—朴素贝叶斯（分类方法）超详细！！！

机器学习算法—朴素贝叶斯（分类方法）超详细！！！相关概率论知识：注：以下公式希望大家可以自己推导一下，有助于更好的理解我们的朴素贝叶斯算法，这一次的讲解，只是为了入门的宝贝可以更好的理解和开始学会运用算法，后面的更新，将会是对于朴素贝叶斯算法的优化，基于这个例子的优化1、相互独立事件：假设A、B相互独立，那么有：**乘法公式：**P(AB)=P(A)*P(B)2、表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。贝叶斯准则告诉我们，如果已知P(A|B),要求P(B|
复制链接

扫一扫