朴素贝叶斯原理Naive
1.简介
贝叶斯分类算法是统计学中的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。朴素贝叶斯的整体思想就是不一定需要知道全部的概率,根据一组已知的数据集合(训练集)的概率,推算出测试类应该更大概率的属于哪一分类。
之所以称之为“朴素”,因为它简单、易于操作,基于特征独立性假设,假设各个特征不会相互影响,无关顺序。这样就大大减小了计算概率的难度。
2.数学基础
2.1相对独立
所有特征之间是统计独立的,如假设某样本X有a1,a2,…an个属性,那么有
P ( X ) = P ( a 1 , a 2 , . . . a n ) = P ( a 1 ) × P ( a 2 ) × . . . . × P ( a n ) P(X)=P(a_{1} ,a_{2} ,...a_{n} )=P(a_{1} )\times P(a_{2} )\times ....\times P(a_{n} ) P(X)=P(a1,a2,...an)=P(a1)×P(a2)×....×P(an)
2.2条件概率
P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
2.3乘法公式(走路)
P ( A B ) = P ( B ) × P ( A ∣ B ) = P ( A ) × P ( B ∣ A ) P(AB)=P(B)\times P(A|B)=P(A)\times P(B|A) P(AB)=P(B)×P(A∣B)=P(A)×P(B∣A)
2.4全概率公式(从原因到结果)
考察在每一种情况下事件A发生的概率,计算B的概率。若事件A1,A2,A3…An构成一个完备事件且都有正概率,那么对于任意一个事件B,都有
P ( B ) = P ( B A 1 ) + P ( B A 2 ) + . . . + P ( B A n ) = P ( B ∣ A 1 ) P (