一、基本理解
1.朴素贝叶斯分类器:
例:如果有一种水果具有红、椭圆形、直径约3英寸等特征,则该水果可以被判定为是苹果。 尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。
2.朴素贝叶斯分类的算法流程:
例:我们需要根据天气条件进行分类,判断这一天能不能出去玩。
朴素贝叶斯-例1
步骤1:将数据集转换成频率表;
步骤2:计算不同天气出去玩的概率,并创建似然表,如阴天的概率是0.29;
步骤3:使用贝叶斯公式计算每一类的后验概率,数据最高那栏就是预测的结果。
问题:如果是晴天,这个人就能出去玩。这个说法是不是正确的?
P(是|晴朗)=P(晴朗|是)×P(是)/P(晴朗)
在这里,P(晴朗|是)= 3/8 = 0.38,P(晴朗)= 5/14 = 0.36,P(是)= 8/14 = 0.57
现在,P(是|晴朗)=0.38×0.57/0.36=0.60,具有较高的概率。
朴素贝叶斯适合预测基于各属性的不同类的概率,因此在文本分类上有广泛应用。
二、回到我们今天的主题,朴素贝叶斯为什么被称为朴素?
朴素贝叶斯的英文全称为Native Bayesian Native的中文解释:简单、朴素、天真、天然、天赋、本土……
adj. 本国的;土著的;天然的;与生俱来的;天赋的 n. 本地人;土产;当地居民
在这个现实世界中,特征之间存在一定的依赖关系。(例如一个人的年龄和年薪,在大多数情况下存在明显的依赖关系。)然而,朴素贝叶斯假设样本的特征之中彼此独立,没有相关关系。正如我们所知,这个假设在现实生活中是很不真实的。
所以,我们认为朴素贝叶斯真的很“朴素”,确切的说,应该是真的很“天真”。
但是,我们仍然将这个贝叶斯概率的思想应用于分类问题,甚至是“文本分类”。既简单快速,又表现良好。