朴素贝叶斯分类器：R语言实现

最新推荐文章于 2022-05-12 21:06:19 发布

Eunice_33

最新推荐文章于 2022-05-12 21:06:19 发布

阅读量9.4k

点赞数 4

分类专栏： R Programming 文章标签：朴素贝叶斯 R语言分类机器学习算法

R Programming 专栏收录该内容

12 篇文章

订阅专栏

<span style="font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; background-color: rgb(255, 255, 255);">
</span>

<span style="font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; background-color: rgb(255, 255, 255);">1、引子</span>

朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法，其中朴素的意思实际上指的是一个假设条件，后面在举例中说明。本人以为，纯粹的数学推导固然有其严密性、逻辑性的特点，但对我等非数学专业的人来说，对每一推导步骤的并非能透彻理解，我将从一个例子入手，类似于应用题的方式，解释朴素贝叶斯分类器，希望能对公式的理解增加形象化的场景。

2、实例

最近“小苹果”很火，我们就以苹果来举例说，假设可以用三个特征来描述一个苹果，分别为“尺寸”、“重量”和“颜色”；其中“尺寸”的取值为小、大，“重量”的取值为轻、重，“颜色”取值为红、绿。对这三个特征描述的苹果中，对苹果的按味道进行分类，可取的值为good、bad。

朴素贝叶斯分类器就要要解决如下一个问题，已知苹果味道取good和bad的概率，那么如果给定一个一组苹果的特征，那么这个苹果味道取good和bad的概率是多少？这是个典型的逆概率的问题。

尺寸（size）大小大大小小
重量（weight）轻重轻轻重轻
颜色（color）红红红绿红绿
味道（taste） good good bad bad bad good

以上给出了6个苹果的特征描述及其口味，那个一个大而重的红苹果，能否估计出它的味道是good还是bad？

这里我们先解释下朴素的含义，朴素就是这样一个假设：描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想，对这个例子来说，这个假设就不成立嘛，大小和重量从直觉上我们都会感到是两个正相关的特征。是的，朴素的假设在实际世界中是较难满足的，但是实际使用中，基于这个假设作出预测的正确率是在一个可接受的范围。

3、基本方法

P(A∣B) 表示在确定B的情况下，事件A发生的概率，而在实际情况中，我们或许更关心P(B∣A)但是只能直接获得P(A∣B) ，此时我们需要一个工具可以把P(A∣B) 和P(B∣A)相互转化，贝叶斯定理就是这样一个公式，下面给出贝叶斯定理：

P (B | A) = P ( A | B ) P ( B ) P ( A )

对苹果分类的问题，有三个特征F = {f₁, f₂, f₃}，两种分类C = {c₁, c₂}，根据贝叶斯公式有给定特征条件下，特征为c_i的概率

P (c i | f 1 f 2 f 3) = P ( f 1 f 2 f 3 | c i ) P ( c i ) P ( f 1 f 2 f 3 )

使得上式取得最大值的c_i即为分类结果，由于对给定训练集来说，P(f₁f₂f₃)为常数，那么就转为为求

P(f₁f₂f₃∣c_i)P(c_i)

的最大值。
朴素贝叶斯的假设在这里就体现了，由于特征值相互独立，那么上式可以转化为

P(f₁∣c_i)P(f₂∣c_i)P(f₃∣c_i)P(c_i)

整个问题就变为求使得上式取最大值的c_i，而上式中的每一项都可以从训练集中得到。

最后讨论下Laplace校准，如果某一个特性值在训练集中出现的次数为0，那么以上我们讨论的公式就没有意义了，以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况，但是如果避免不了就需要进行Laplace校准。其实很简单，把所有出现特征出现的次数都加上1，即为Laplace校准。

4、R语言实现

</pre><pre name="code" class="plain">

# Naive Bayes

library(plyr)
library(reshape2)

#1、根据训练集创建朴素贝叶斯分类器
#1.1、生成类别的概率

## 计算训练集合D中类别出现的概率，即P{c_i}
## 输入：trainData 训练集，为数据框
## strClassName 指明训练集中名称为strClassName列为分类结果
## 输出：数据框，P{c_i}的集合，类别名称|概率（列名为prob）
class_prob <- function(trainData, strClassName){
    #训练集样本数
    length.train <- nrow(trainData)
    dTemp <- ddply(trainData, strClassName, "nrow")
    #ddply用于对trainData进行分组统计
    #统计taste的频数
    dTemp <- ddply(dTemp, strClassName, mutate, prob = nrow/length.train)
    #继上一步计算频率
    dTemp[,-2]
}

##1.2、生成每个类别下，特征取不同值的概率
## 计算训练集合D中，生成每个类别下，特征取不同值的概率，即P{fi_ci}
##输入：trainData训练集，为数据框
## strClassName指明训练集中名称为strClassName列为分类的结果，其余的全部列认为是特征值
##输出：数据框，P{fi_ci}的集合，类别名称|特征名称|特征取值|概率(列名为prob)
feature_class_prob <- function(trainData, strClassName){
    #横表转成纵表
    data.melt <- melt(trainData, id = c(strClassName))
    #统计频数
    aa <- ddply(data.melt, c(strClassName, "variable", "value"), "nrow")
    #计算每一种特征对应的分类的频数
    bb <- ddply(aa, c(strClassName, "variable"), mutate, sum = sum(nrow), prob = nrow/sum)
    #增加列名
    colnames(bb) <- c("class.name",
                     "feature.name",
                     "feature.value",
                     "feature.nrow",
                     "feature.sum",
                     "prob")
    # 返回结果
    bb[, c(1,2,3,6)]
}

#feature_class_prob(iris, "Species")

#以上创建了朴素贝叶斯分类器

##使用生成的朴素贝叶斯分类器进行预测
##使用生成的朴素贝叶斯进行预测P{fi_ci}
##输入：oneObs数据框，待预测样本，格式为特征名称|特征值
## pc数据框，训练集合下，特征取不同值的概率，P{c_i}  类别名称|概率
## pfc数据框，每个类别下，特征值去不同值的概率，即P{fi_ci}
pre_class <- function(oneObs, pc, pfc){
    colnames(oneObs) <- c("feature.name", "feature.value")
    colnames(pc) <-c("class.name", "prob")
    colnames(pfc) <- c("class.name", "feature.name", "feature.value", "prob")
    
    #取出特征的取值的条件概率
    feature.all <- join(oneObs, pfc, by = c("feature.name", "feature.value"), type="inner")
    #取出特征取值的条件概率的连乘
    feature.prob <- ddply(feature.all, .(class.name), summarize, prob_fea = prod(prob))
    #prod是连乘函数
    #取出类别的概率
    class.all <- join(feature.prob, pc, by = "class.name", type = "inner")
    #输出结果
    ddply(class.all, .(class.name), mutate, pre_prob = prob_fea * prob)[,c(1,4)]
}



##3、数据测试
#训练集
train.apple <- data.frame(
    size = c("大", "小", "大", "大", "小", "小"),
    weight = c("轻", "重", "轻", "轻", "重", "轻"),
    color = c("红", "红", "红", "绿", "红", "绿"),
    taste = c("good", "good", "bad", "bad", "bad", "good")
    )

#测试集
oneObs <- data.frame(
    feature.name = c("size","weight","color"),
    feature.value = c("大","重","红")
    )

#预测测试集
pc <- class_prob(train.apple, "taste")
pfc <- feature_class_prob(train.apple,"taste")
pre_class(oneObs, pc, pfc)

结果为
class.name pre_prob
1 bad 0.07407407
2 good 0.03703704
可见该苹果的口味为bad