本期涉及到的技术关键字
贝叶斯原理、先验概率、后验概率
贝叶斯分类算法官方定义
贝叶斯分类算法,是统计学的一种分类方法,是利用概率统计知识进行分类的算法。
一般在互联网行业中应用场合中,主要使用的是朴素贝叶斯分类算法,基本上可以和决策树、神经网络分类算法相媲美,有方法简单、分类准确率高、速度快的特点。
本质上:贝叶斯算法实际上是根据已有的经验和知识推断一个先验概率,然后根据新证据不断积累的情况下调整这个概率。
人话就是:用过于发生某事的概率,推断现在发生某事的概率。
比如说天气预报、医疗诊断、抽奖预测、股票预测、垃圾邮件处理等等。
公式:
解释:
P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。
P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。
P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。
P(B)是 B 的先验概率,也作标淮化常量(normalizing constant)。
这个部分过于复杂,我们一起来套用一个例子来看看。
举个例子