朴素贝叶斯

朴素贝叶斯

前言

朴素贝叶斯法是基于贝叶斯定理特征条件独立假设的分类方法。首先基于特征条件独立的假设学习输入/输出的联合概率分布P(X,Y)P(X,Y);然后根据此模型对于给定的输入xx,利用贝叶斯定理求出后验概率最大的输出yy,即P(YX)P(Y|X),朴素贝叶斯是一个生成模型。所谓的特征条件独立是在类别确定的情况下实例的特征之间是独立的

基本方法

训练数据集T={(x1,y1),(x2,y2),,(xN,yN)}T=\lbrace (x_1,y_1),(x_2,y_2),···,(x_N,y_N)\rbrace其中xiXRnx_i \in X \subseteq R^nyiY={c1,c2,cK}y_i \in Y=\lbrace c_1,c_2,···c_K\rbrace
首先要学习的是联合概率分布P(X,Y)P(X,Y),根据条件概率公式可以计算联合概率分布P(X,Y)=P(XY)P(Y)P(X,Y)=P(X|Y)·P(Y)其中先验概率分布为P(Y=ck),k=1,2,,KP(Y=c_k),k=1,2,···,K条件概率分布P(X=xY=ck)=P(X(1)=x(1),X(2)=x(2),,X(n)=x(n)Y=ck),k=1,2,,KP(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},···,X^{(n)}=x^{(n)}|Y=c_k),k=1,2,···,K结合对特征条件独立的假设P(X(1)=x(1),X(2)=x(2),,X(n)=x(n)Y=ck)=i=1nP(Xi=xiY=ck)P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},···,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)因此P(X=x,Y=ck)=i=1nP(Xi=xiY=ck)P(Y=ck)P(X=x,Y=c_k)=\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k)根据贝叶斯定理P(Y=ckX=x)=i=1nP(Xi=xiY=ck)P(Y=ck)P(X=x)P(Y=c_k|X=x)=\frac{\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k)}{P(X=x)}根据全概率公式得到P(Y=ckX=x)=i=1nP(Xi=xiY=ck)P(Y=ck)kP(X=xY=ck)P(Y=ck)P(Y=c_k|X=x)=\frac{\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}根据条件独立假设P(Y=ckX=x)=i=1nP(Xi=xiY=ck)P(Y=ck)kP(Y=ck)i=1nP(Xi=xiY=ck),k=1,2,,KP(Y=c_k|X=x)=\frac{\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k)}{\sum_k P(Y=c_k)\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)},k=1,2,···,K上式即为朴素贝叶斯的基本公式。最后我们要求的是在输入实例xx的情况下得到最大的P(Y=ckX=x)P(Y=c_k|X=x)所对应的ckc_k就是输入实例xx所对应的类别,用数学形式表示为:y=f(x)=arg maxckP(Y=ckX=x)=i=1nP(Xi=xiY=ck)P(Y=ck)kP(Y=ck)i=1nP(Xi=xiY=ck),k=1,2,,Ky=f(x)=\argmax_{c_k} P(Y=c_k|X=x)=\frac{\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k)}{\sum_k P(Y=c_k)\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)},k=1,2,···,K分母的值为一个定值,因此化简为:y=arg maxcki=1nP(Xi=xiY=ck)P(Y=ck),k=1,2,,Ky=\argmax_{c_k}\prod_{i=1}^{n}P(X^{i}=x^{i}|Y=c_k)·P(Y=c_k),k=1,2,···,K上式就是贝叶斯过程要计算的公式。对于离散的数据上式的参数都可以通过其对应的频率求得即极大似然。用极大似然的方式求得参数可能会出现为0的情况,因此参数估计引入了贝叶斯估计法具体的条件概率贝叶斯是Pλ(X(j)=ajlY=ck)=i=1NI(xi(j)=ajl,yi=ck)+λi=1NI(yi=ck)+SjλP_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda}其中λ\lambda为一个超参数,当λ=0\lambda=0时为极大似然估计,当λ=1\lambda=1时称为拉普拉斯平滑。SjS_j为特征xjx^j可以取的值的数量。

展开阅读全文
©️2020 CSDN 皮肤主题: 游动-白 设计师: 上身试试 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值