机器学习——朴素贝叶斯

目录

一、贝叶斯

1.什么是贝叶斯

3.贝叶斯下的朴素贝叶斯

二、朴素贝叶斯

1.高斯朴素贝叶斯

2.伯努利朴素贝叶斯

3.多项式朴素贝叶斯


前言
在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。

一、贝叶斯

1.什么是贝叶斯

贝叶斯定理是关于随机事件 A 在 B 条件下发生的概率:

在贝叶斯定理中,每个名词都有约定俗成的名称:
· P(A|B)是已知 B 发生后 A 的条件概率
· P(A)是 A 的先验概率
· P(B|A)是已知 A 发生后 B 的条件概率

2.贝叶斯的推导
我们可以从条件概率的定义推导出贝叶斯定理。
根据条件概率的定义,在事件 B 发生的条件下事件 A 发生的概率为

同样地,在事件 A 发生的条件下事件 B 发生的概率为:

结合这两个方程式,我们可以得到

这个引理有时称作概率乘法规则。

上式两边同除以 P(A),若P(A)是非零的,我们可以得到贝叶斯定理(ABABAB定理):

在这里我们已经获得基本的贝叶斯公式了,但是我在这里进行引入全概率公式,获得基本贝叶斯定理的展开式。
全概率公式:
若事件A1,A2 …… 满足

所以对任意事件B有

结合基本贝叶斯定理,获得贝叶斯定理的变式如下:

综上有:

3.贝叶斯下的朴素贝叶斯

在上面已经获得贝叶斯定理的一个公式了,这时候我们结合机器学习对公式中的变量进行代替

· x表示输入的特征
· y_i表示对输入的特征进行分类的结果
由于输入的P(x1,…,xn)是给定的常数值,我们可以得到以下式子: 

在分类问题中,对于输入的样本,实际上就是求取该样本在各各类别的概率,以获得该样本所属的类别。最终获得贝叶斯定理的简化形式,也就是朴素贝叶斯: 

那如何求先验概率P(y_i )和似然概率P(x│y_i )?
· 对于P(y_i ),sklearn.naive_bayes模块定义了三种方法
(1)对应类的占总数据集的占比,作为先验概率
(2)均值
(3)自己设定每一类别的先验概率

· 对于似然概率P(x│y_i ),在特征相互独立的情况下,根据y下x特征的分布情况进行求解
(1)y下x的分布是高斯分布

(2)y下x的分布是二项分布 

(3)y下x的分布是多项分布

二、朴素贝叶斯

1.高斯朴素贝叶斯

代码如下(示例):

"""
GaussianNB(【*, priors=None, var_smoothing=1e-09】)
"""
import numpy as np
import pandas as pd
from sklearn.naive_bayes import GaussianNB

np.random.seed(0)
x = np.random.randint(-5,5,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.hstack([x, y.reshape(-1,1)]), columns=['x1','x2','y'])
display(data)

gnb = GaussianNB()
gnb.fit(x,y)

## 属性
#每个类别样本的数量
print('样本数量:', gnb.class_count_)
#每个类别的先验概率
print('先验概率:', gnb.class_prior_)
#每个类别的标签
print('标签:', gnb.classes_)
#每个特征在每个类别下的方差
print('方差:',gnb.sigma_)
#每个特征在每个类别下的均值
print('均值:',gnb.theta_)

## 方法
x_test = np.array([[2,1]])
print('预测结果:', gnb.predict(x_test))
print('预测结果概率:', gnb.predict_proba(x_test))
print('测试数据的平均精准度',gnb.score(x,y))

 

2.伯努利朴素贝叶斯

代码如下(示例):

"""
BernoulliNB(【*, alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None】) 
"""
from sklearn.naive_bayes import BernoulliNB

np.random.seed(0)
x = np.random.randint(-5,5,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.concatenate([x,y.reshape(-1,1)], axis=1), columns=['x1','x2','y'])
display(data)

bnb = BernoulliNB()
bnb.fit(x,y)

## 属性
print('样本数量',bnb.class_count_)
#每个类别样本所占的比重,即P(y)。注意该值为概率取对数之后的结果,
#如果需要查看原有的概率,需要使用指数还原。
print('先验概率:',np.exp(bnb.class_log_prior_))
print('标签',bnb.classes_)

## 方法
x_test = np.array([[2,1]])
print('预测结果:', bnb.predict(x_test))
print('预测结果概率:', bnb.predict_proba(x_test))
print('测试数据的平均精准度',bnb.score(x,y))

 

3.多项式朴素贝叶斯

代码如下(示例):

"""
MultinomialNB(【*, alpha=1.0, fit_prior=True, class_prior=None】)
多项式朴素贝叶斯中各特征都是正数(类别),然而二项式朴素贝叶斯可以为负(实质上通过参数binarize划分01)
"""
from sklearn.naive_bayes import MultinomialNB

np.random.seed(0)
x = np.random.randint(0,4,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.hstack([x, y.reshape(-1,1)]), columns=['x1','x2','y'])
display(data)

mnb = MultinomialNB()
mnb.fit(x,y)

## 属性
print('样本数量',mnb.class_count_)
#每个类别样本所占的比重,即P(y)。注意该值为概率取对数之后的结果,
#如果需要查看原有的概率,需要使用指数还原。
print('先验概率:',np.exp(mnb.class_log_prior_))
print('标签',mnb.classes_)

## 方法
x_test = np.array([[2,1]])
print('预测结果:', mnb.predict(x_test))
print('预测结果概率:', mnb.predict_proba(x_test))
print('测试数据的平均精准度',mnb.score(x,y))

 

总结
朴素贝叶斯的主要优点有:

1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。

3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。

朴素贝叶斯的主要缺点有:

1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

肉肉肉肉肉肉~丸子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值