朴树贝叶斯算法学习笔记

最新推荐文章于 2022-11-27 19:37:15 发布

TanYoung@t

最新推荐文章于 2022-11-27 19:37:15 发布

阅读量601

点赞数

文章标签：朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Guaike0210/article/details/103127930

版权

一、朴素贝叶斯是什么？

1.1贝叶斯公式：P(Y|X) =（X表示某个测试数据Y表示某个类别）

机器学习的视角理解公式：具有某个特征的数据X属于类别Y的概率 = 属于某类Y的概率）* （属于某类Y且具有某个特征X的概率）

1.2实现原理：对于某一条测试数据，计算其属于每个分类的概率，选取其中最大概率所对应的类别作为测试数据的类别。

1.3贝叶斯假设：朴素贝叶斯假设特征空间之间是独立的（互不影响）

假设数据X由X1,X2,X3.....,Xn组成，则由贝叶斯假设可得出 P(X|Y) = P(X1|Y)*P(X2|Y)*......*P(Xn|Y) 得出朴素贝叶斯公式为

其中p(Y)称为先验概率，P(X|Y) = P(X1|Y)*P(X2|Y)*......*P(Xn|Y)称为条件概率，P(Y|X)称为后验概率（要求的概率）

1.4 实现步骤

A.划分数据集

将获取到的数据集按照一定比例划分成测试集（用于测试经过训练算法的正确率）和训练集（训练算法的数据）

B.模型训练

输入：训练数据集

a.统计训练集中类别（垃圾/非垃圾信息）的样本数量（便于计算先验概率) => P(Y);

b.统计训练集中所有数据（垃圾和非垃圾信息）的特征向量集合（不重复）（便于计算概率时进行平滑处理）；

c.统计训练集中各个类别（垃圾/非垃圾信息）数据中出现的特征向量集合（垃圾信息单词集合/非垃圾信息单词集合）；

d.统计训练集中各个类别特征向量集合中每个向量出现的次数====>存储在CountMap<String,Integer>(单词，训练集中对应的数量)（便于计算条件概率) => P(X|Y)

将不同类别的CountMap<String,Integer>和类别的先验概率封装成分类器对象作为结果返回(Classification)。

输出：分类器Classification对象

C.模型测试

输入：测试数据集

（计算概率）对于测试集中的每一个测试样本，根据朴素贝叶斯公式计算其属于训练集中某个类别的概率；

（做决策）比较计算出概率的大小，选取最大概率的类别作为预测结果；

（求正确率）如果预测结果与真实结果一致，将预测正确数量+1，计算正确率

1.5 平滑处理：如果测试数据中存在训练集中不存在的数据时应该对其概率进行处理，有两种不同模型（伯努利模型和多项式模型），其处理原理（在增加未出现词概率的同时，减少已出现词语的概率）

假设测试数据中存在“出现”这个词

伯努利模型：P("出现"|Y) = （出现“出现”词语的训练数据个数+1）/（类别Y训练集中单词个数+2）

多项式模型：P("出现"|Y) = （出现“出现”词语的训练数据个数+1）/（类别Y训练集中单词个数+训练集中不重复单词的个数）

1.6 处理流程图

......初学阶段，还有诸多不足之处，望多多指正！！！

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

TanYoung@t CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

36万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

491: 积分

222: 粉丝

236: 获赞

4: 评论

242: 收藏

私信

关注

热门文章

分类专栏

Golang 12篇
华为OD 9篇
#面试算法 9篇
Kubernetes 5篇
Docker 1篇
Redis 3篇

最新评论

Golang学习系列1-pprof性能调优
全栈小5: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。【Golang学习系列1-pprof性能调优，博主这篇文章，值得一看】
Golang学习系列1-pprof性能调优
颜淡慕潇: 感谢博主分享的知识，博主文章细节到位，兼顾操作性和实用性，文章思路清晰，干货满满，看完后受益匪浅，支持博主创作，期待博主未来的好文分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。