机器学习入门之《集体智慧编程》贝叶斯分类（bayesian classification)

最新推荐文章于 2023-10-08 11:24:59 发布

skywalkerVVV

最新推荐文章于 2023-10-08 11:24:59 发布

阅读量1.4k

点赞数

分类专栏：机器学习入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skywalkerVVV/article/details/8438431

版权

机器学习入门专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第一次听说机器学习这四个字，是在杜军平老师的选修课上，当时他也就那么提了一下的东西，没想到在若干年后的今天让我如此滴着迷。

贝叶斯分类（bayesianclassification)

贝叶斯公式和全概率公式是《概率论》中的两个简单的公式：

贝叶斯公式：P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B)

cat 代表文本类别比如娱乐，体育等等

doc 代表一篇文章例如一篇体育新闻

word 代表一个词组必须 basketb，football

贝叶斯分类器要解决的问题是：在知道doc的情况下如实将其以最大的概率分配到某一个cat中。

也就是需要计算 P(cat1|doc) P(cat2|doc) P(cat2|doc)........ 可以选概率最大的一个作为分类。现在问题就集中到怎么计算P(cat|doc)？

使用贝叶斯公式： P(cat|doc) = P(doc|cat)P(cat)/P(doc)

对于不同的待选分类，例如cat1，cat2

P(cat1|doc) = P(doc|cat1)P(cat1)/P(doc) P(cat2|doc) = P(doc|cat2)P(cat2)/P(doc)

对于每一个P(cati|doc)=P(doc|cati)P(cati)/P(doc) 都必须除以P(doc)，故可以忽略p(doc),只需要计算P(doc|cati)P(cati)

计算P(cat)

P(cati)就是训练样本空间中cati的概率，例如有样本空间的大小是1000，有30篇是体育类的文章，故P(体育)=30/1000= 3%

计算P(doc/cati)

要计算P(doc/cati)必须明白，doc是由word组成的（文章有词组组成） doc=word1，word2，...,wordn

故有P(doc/cati) = P(word1,word2,...,wordn/cati)

如果我们假设word出现是独立的，那么有

P(doc/cati) = P( (word1,word2,...,wordn) / cati) =P(word1/cati)*P(word2/cati)*...*P(wordn/cati)

现在焦点集中在怎么计算P(word/cati)

P(word/cati)说白了就是在cati的文章中，有多少篇文章出现了word，例如有30篇体育文章，其中有20篇文章出现了football,那么P(football/体育)=20/30

到现在为止所有问题都解决了。

把各个word看成是独立的方法叫做“朴素贝叶斯法”，虽然现实情况不可能是独立的，但是它还是非常的有效。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门之《集体智慧编程》贝叶斯分类（bayesian classification)

第一次听说机器学习这四个字，是在杜军平老师的选修课上，当时他也就那么提了一下的东西，没想到在若干年后的今天让我如此滴着迷。贝叶斯分类（bayesianclassification)贝叶斯公式和全概率公式是《概率论》中的两个简单的公式：贝叶斯公式：P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B)cat 代表文本类别比如娱乐，体育等等
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。