朴素贝叶斯方法(Naive Bayes)

本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1

  • 方法概述
  • 学习(参数估计)
  • 实现:朴素贝叶斯下的文本分类

模型概述

朴素贝叶斯方法,是指
朴素:特征条件独立
贝叶斯:基于贝叶斯定理

根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是

p(y|x)=p(x|y)p(y)p(x)1

在这里,x是一个特征向量,将设x维度为M。因为朴素的假设,即特征条件独立,根据全概率公式展开,公式(1)可以表达为
p(y=ck|x)=Mi=1p(xi|y=ck)p(y=ck)kp(y=ck)Mi=1P(xi|y=ck)2

这里,只要分别估计出,特征 xi 在每一类的条件概率就可以了。类别y的先验概率可以通过训练集算出,同样通过训练集上的统计,可以得出对应每一类上的,条件独立的特征对应的条件概率向量。
如何统计,就是下一部分——学习——所关心的内容。

学习(参数估计)

下面介绍如何从数据中,学习得到朴素贝叶斯分类模型。概述分类方法,并提出一个值得注意的问题。

学习

训练集TrainingSet= {(x1,y1),(x2,y2),...,(xN,yN)} 包含N条训练数据,其中 xi=(x(1)i,x(2)i,...,x(M)i)T 是M维向量, yi{c1,c2,...cK} 属于K类中的一类。

学习 1.首先,我们来计算公式(2)中的 p(y=ck)

p(y=ck)=Ni=1Iyi=ckN3

其中 I(x) 为指示函数,若括号内成立,则计1,否则为0。

学习 2.接下来计算分子中的条件概率,设 M 维特征的第 j 维有 L 个取值,则某维特征的某个取值 ajl ,在给定某分类 ck 下的条件概率为:

p(xj=ajl|y=ck)=Ni=1I(xji=ajl,yi=ck)Ni=1I(yi=ck)4

经过上述步骤,我们就得到了模型的基本概率,也就完成了学习的任务。

分类

通过学到的概率,给定未分类新实例 X ,就可以通过上述概率进行计算,得到该实例属于各类的后验概率 p(y=ck|X) ,因为对所有的类来说,公式(2)中分母的值都相同,所以只计算分子部分即可,具体步骤如下:
分类 1.计算该实例属于 y=ck 类的概率
p(y=ck|X)=p(y=ck)j=1np(X(j)=x(j)|y=ck)5

分类 2.确定该实例所属的分类 y
y=argmaxckp(y=ck|X)6

于是我们得到了新实例的分类结果

拉普拉斯平滑

到这里好像方法已经介绍完了,实则有一个小问题需要注意,在公式(3)(4)中,如果从样本中算出的概率值为0该怎么办呢? 下面介绍一种简单方法,给学习步骤中的两个概率计算公式,分子和分母都分别加上一个常数,就可以避免这个问题。更新过后的公式如下:
p(y=ck)=Ni=1Iyi=ck+λN+Kλ7

K 是类的个数
p(xj=ajl|y=ck)=Ni=1I(xji=ajl,yi=ck)+λNi=1I(yi=ck)+Ljλ8

Lj 是第 j 维特征的最大取值

可以证明,改进以后的(7)(8)仍然是概率。平滑因子 λ=0 即为(3)(4)实现的最大似然估计,这时会出现在本节开始时提到的0概率问题;而 λ=1 则避免了0概率问题,这种方法被称为拉普拉斯平滑

实现:朴素贝叶斯下的文本分类

根据上面的算法流程,在这里实现一个句子极性划分的例子。所谓句子极性是指,句子所表达的情感色彩,例如积极/消极,这里(书里)使用的是侮辱性/非侮辱性。其实是什么类别不重要,只要给定有标签的训练数据,就可以得到分类模型。
下面简述实现思想和流程,给出代码。

算法思想和流程

给定的训练集是标定了 侮辱性/非侮辱性 的句子(因为是英语句子,所以基本视分词为已经解决的问题,如果是汉语,则要先进行分词),我们认为特征就是句子中的单个词语。单个词语有极性表征,整个句子所包含的单词的极性表征就是句子的极性。 由以上的基础,应用朴素贝叶斯分类,就变成了这样的问题
初始化步,构建可以表征句子的特征向量(词汇表)。并根据这个特征向量,把训练集表征出来。从训练集中分离部分数据作为测试集。
学习步,计算 类的先验概率特征向量对应每一类的条件概率向量
分类步, 计算测试集中待分类句子在每一类的分类后验概率,取最大值作为其分类,并与给定标签比较,得到误分类率。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值