《机器学习实战》学习笔记第四章-朴素贝叶斯

最新推荐文章于 2022-11-28 01:03:16 发布

isla77

最新推荐文章于 2022-11-28 01:03:16 发布

阅读量372

点赞数

文章标签：机器学习学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/isla77/article/details/126055866

版权

目录

贝叶斯决策理论

进行文本分类

准备数据：从文本中构建词向量

训练算法：从词向量计算概率

测试算法：根据现实情况修改分类器

文档词袋类型

使用贝叶斯过滤垃圾邮件

贝叶斯决策理论

比较一个确定的点属于不同类别的概率，哪个概率大，属于哪一类。

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。

适用数据类型：标称型数据

一般过程：

1.收集数据

2.准备数据：需要数值型或布尔型数据

3.分析数据：有大量特征时，使用直方图效果更好

4.训练算法：计算不同的独立特征的条件概率

5.测试算法：计算错误率

6.使用算法：一个常见的朴素贝叶斯应用是文档分类。

贝叶斯公式：

$P(A|B)= \frac{P(B|A)}{P(B)}P(A)$

P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率，表示事件B发生后，事件A发生的置信度。
P(A)是A的先验概率或边缘概率，表示事件A发生的置信度。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率，也被称作似然函数。
P(B)是B的先验概率或边缘概率，称为标准化常量。
P(B|A)P(B)称为标准似然比，表示事件B为事件A发生提供的支持程度。

最大似然估计：完全从样本入手，使得观测数据（样本）发生概率最大的参数，即P(X|θ)最大的参数θ就是最好的参数，如抛硬币10次6次正，最大似然估计认为抛一次为正的概率为0.6

最大后验概率估计：事先知道抛硬币为正的概率是0.5，认为使P(X|θ)P(θ)取最大值的θ就是最好的θ，因此以0.5和最大似然估计计算得到θ=0.57

贝叶斯估计：在最大后验估计的基础上，不是估计θ的值，而是估计一个范围，约为0.5625

参考自：贝叶斯估计、最大似然估计、最大后验概率估计 | SnailTyan (noahsnail.com)

进行文本分类

要从文本中获取特征，需要先拆分文本。具体的特征词条可以是URL、IP地址或者任意字符串，1表示词条出现，0表示未出现。

准备数据：从文本中构建词向量

从文本中构建词向量，将句子转化成向量。

以在线社区留言板为例，我们要屏蔽侮辱性言论，侮辱类词汇为1，非侮辱类为0

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》学习笔记第四章-朴素贝叶斯

比较一个确定的点属于不同类别的概率，哪个概率大，属于哪一类。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。