朴素贝叶斯分类

朴素贝叶斯分类解决的问题是什么?

解决给你N个训练数据样本,给你一个测试样本,分辨出测试样本属于label_1还是label_2的问题。

如何白话描述贝叶斯概率?

贝叶斯概率是依据真实数据对先验概率的一种调整。

举个形象的例子描述它?

 

数学上如何定义它?

根据对贝叶斯的简单描述,贝叶斯是对先验概率的一种重新调整,可以写成后验概括 = 先验概率\ast 调整因子P(p)= P(L)*\alpha

数学表达式:P(A/B)=P(A)*\frac{P(B/A)}{P(B)}

其中p(A)是先验概率,\frac{P(B/A)}{P(B)}调整因子。P(A/B)为B事件发生的情况下,A事件发生的概率,P(A)为A事件发成的概率,P(B)为B事件发生的概率。总的一句话就是因为后续的事件B的发生,对一开始先验概率的重新调整。比如随机的在人群中拉出一个人,如果在没有其他的限制条件下,他是男生是女生的概率是50%,并不能正确的判断,如果此时,知道这个人是长发飘飘,那么是不是说这个人是男生的概率会大于50%,这就是对先验概率进行了调整,而且还是一种正向调整,如果调整因子<1,即为反向调整。

机器学习中如何使用它?

如果一上来就说贝叶斯能直接应用在机器学习上,是不是觉得毫无头绪,反正我是一头雾水,根本抓不到这两者之间有任何的连续,或者说分类问题都是文字的描述,很难把贝叶斯和分类联系起来。先不要着急,我们一步一步来看。

1、我们要实现什么?我们需要对test数据进行分类。选择哪一个类的选择标准是什么?输入一组数据,如果得到P(label_1) > P(label_2)。你是不是会想,如果到这里就结束了,那我还要特征干什么,不同的特征是会影响最终的P(label_1)和P(label_2),说到这里有没有一点贝叶斯的影子,貌似是在说:不同的的特征,具有不同的概率输出,不同的事件是不是等于B事件(不同的特征),概率输出指的就是P(label)呢。

2、这里我们进行第一个假设:假设每一个样本都有A1、A2、A3、A4等4个特征。上述1中的最终描述应该是:P(label_1)=,P(label_2)=P(label_1/(A1、A2、A3、A4))。这个是什么鬼,求得出来么?这两个东东不觉得很像P(A/B)么,显然我们就是要对它进行分类,答案肯定是正向求不出来的。先有原因推断结果比较难,那我们需要换一个思路。

3、这里我们进行第二个假设:现在已经有了N个原始数据,这些数据中有m个label_1标签,有n个label_2标签,其中m+n=N。我们可以计算出label的先验概率 P(label_1)=m/N,P(label_2)=n/N。根据上面的公式,其实我们已经把先验概率求出来了。

4、总结一下上面1.2.3点,我们可以得到下面一个结论:

P(label_1/(A1A2A3A4))=P(label_1)*\frac{P((A1A2A3A4|label_1))}{P(A1A2A3A4)}

这个公式是不是和朴素贝叶斯一模一样。

5、我们把求P(label_1/(A1A2A3A4))转化成了求P(label_1)P((A1A2A3A4|label_1))P(A1A2A3A4),把一个不好求的问题转换成了好求问题。但是看起来还是不好求啊。

6、这里我们进行第三个假设,贝叶斯能在机器学习上应用最牛逼的假设-----朴素贝叶斯假设各个特征之间相互独立,如果不对其进行假设的话,会出现多维联合概率分布。读到这里,或许有点感觉了吧,有独立的字眼,立马能想到独立事件,没错,你真的很棒。上面没的公司立马写成:

1、

P((A1A2A3A4|label_1))=P(A1|label_1)*P(A2|label_1)*P(A3|label_1)*P(A4|label_1)

2、P(A1A2A3A4)=P(A1)*P(A2)*P(A3)*P(A4)

7、具体的举例可以参考https://blog.csdn.net/lyl771857509/article/details/78993493,这里面有一个女生嫁或者不嫁的问题。

机器学习中决策一个测试数据属于哪个类的依据是什么?

P(label_1) > P(label_2)

机器学习中如何使用它有什么先决条件?

       这里就是上面6中那个最牛逼的假设,通俗来讲就是特征之间相关性比较小,如果相关性比较大,其实是不适合用朴素贝叶斯来解决分类问题的,如果实际中数据之间不相互独立,可以应用半朴素贝叶斯分类。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值