朴素贝叶斯理论推导 多项式分布 利用极大似然估计进行参数估计

朴素贝叶斯理论推导 多项式分布与伯努利分布 利用极大似然估计进行参数估计

(一):贝叶斯定理

先从条件概率来看

P ( A B ) = P ( A ∣ B ) × P ( B ) P ( A B ) = P ( B ∣ A ) × P ( A ) P(AB)=P(A\vert B)\times P(B)\\P(AB)=P(B\vert A)\times P(A) P(AB)=P(AB)×P(B)P(AB)=P(BA)×P(A)
上式中,A,B事件同时发生的概率等于:

B发生时,A发生的概率乘B事件发生的概率。
或者可以说是A发生时,B发生的概率乘A事件发生的概率。

举个例子:
A:喝一杯牛奶,B:吃一块面包
P(A|B):在吃一块面包的情况下,喝一杯牛奶的概率
此时若求P(AB)则要注意,P(A|B)是有条件存在的,但他的条件(吃一块面包) 仍然存在发生的概率。那么P(AB):既吃面包也喝了牛奶的概率 就是 先吃一块面包的概率乘上在这个条件下,喝了牛奶的概率。

由上面两个等式可知:
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) × P ( A ) P ( B ) P(A\vert B)=\frac{P(AB)}{P(B)}=\frac{P(B\vert A)\times P(A)}{P(B)}\\ P(AB)=P(B)P(AB)=P(B)P(BA)×P(A)
现在再引入全概率公式 :
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) × P ( A i ) P(B)=\sum_{i=1}^nP(B\vert A_i)\times P(A_i)\\ P(B)=i=1nP(BAi)×P(Ai)
则有:
P ( A ∣ B ) = P ( B ∣ A ) × P ( A ) ∑ i = 1 n p ( B ∣ A i ) × P ( A i ) P(A\vert B)=\frac{P(B\vert A)\times P(A)}{{\displaystyle\sum_{i=1}^n}p(B\vert A_i)\times P(A_i)}\\ P(AB)=i=1np(BAi)×P(Ai)P(BA)×P(A)
这就是贝叶斯公式了。

(二)数据的定义

数据集:(i是数据集下标)
( X , Y ) = {      ( x 1 , y 1 )    ,    ( x 2 , y 2 ) . . . ( x i , y i ) . . . ( x N , y N )    } (X,Y)=\{\;\;(x_1,y_1)\;,\;(x_2,y_2)...(x_i,y_i)...(x_N,y_N)\;\}\\ (X,Y)={(x1,y1),(x2,y2)...(xi,yi)...(xN,yN)}
X是一个含有n维度(n个特征)的向量 (下标是h)
X ⊑ R n X = ( ω 1 , ω 2 . . . . . ω h . . . . ω n ) X\sqsubseteq\mathbb{R}^n\\X=(\omega_1,\omega_2.....\omega_h....\omega_n)\\ XRnX=(ω1ω2.....ωh....ωn)
这里注意,每个维度也存在多种的可能性的,现在我们规定每个维度 ω h \omega_h ωh S t S_t St种可能性。
意思就是,比如X是一篇文章,w就是其中的某一个单词,而S_t就是这个单词可能出现的情况。w1 表示第一个单词,这个单词可能取值会有 Today、Hi、Hello等可能性。
ω h = 1 , 2... S t . . . S h \omega_h=1,2...S_t...S_h\\ ωh=1,2...St...Sh

Y是该变量X的分类情况,比如一篇文章的分类可能是小说、散文、诗歌等等。 (下标用j表示)
Y = { c 1 , c 2 . . . . c j . . . . c k } Y=\{c_1,c_2....c_j....c_k\}\\ Y={c1,c2....cj....ck}

(二)朴素贝叶斯——多项式模型:

模型的目标:
首先这个模型解决的问题是分类问题。
朴素+贝叶斯:朴素的意思就是概率独立性,贝叶斯就是运用贝叶斯定理。合在一起就是朴素贝叶斯。
但是同逻辑回归、SVM不同,朴素贝叶斯模型是以概率角度出发去做出分类的。
分类的原理就是找一个概率最大化的思想。其实就是求 a r g m a x P ( Y ∣ X ) argmax P(Y\vert X) argmaxP(YX) 在给我一个X(一篇文章)的情况下,求出他是哪个类型的概率最大。
比如它是散文的概率0.2、是小说的概率0.6、是诗歌的概率0.4。那么我们就说他是小说这个类别的。这就是这个模型的分类原理。

模型的求解:
根据上面说的,我们就是要求出 a r g m a x P ( Y ∣ X ) argmax P(Y\vert X) argmaxP(YX)这个就行了,但是直接没办法求,我们需要用到贝叶斯公式。现在将贝叶斯公式代入:
P ( Y = c j ∣ X = x i ) = P ( X = x ∣ Y = c j ) × P ( Y = c j ) P ( X = x i ) P(Y=c_j\vert X=x_i)=\frac{P\left(X=x\vert Y=c_j\right)\times P\left(Y=c_j\right)}{P(X=x_i)} P(Y=cjX=xi)=P(X=xi)P(X=xY=cj)×P(Y=cj)
要算的就是 给出一篇文章xi,它是cj类型的概率。

这里 有几个名词:
先验概率:就是根据已有知识不用做推断和概率假设能得到的概率,比如有10篇文章按照6:4装在AB两个盒子里,A盒子里有三篇小说。先验就是问A中拿出一本小说类型的概率是多少。直接可以知道是3/5
后验概率:就是现在的知识得不到的,比如现在我们要求的,拿出一篇文章是小说问它是从A拿出来概率。
似然性:也就是上面式子分子的那个条件概率。

现在注意一个问题,我们是要找不同 j j j 值下的 P ( Y = c j ∣ X = x i ) P(Y=c_j\vert X=x_i) P(Y=cjX=xi)中最大的那一个概率,而每一个 j j j 值下的 P ( Y = c j ∣ X = x i ) P(Y=c_j\vert X=x_i) P(Y=cjX=xi)按照贝叶斯公式展开的分母都是 P ( X = x i ) P(X=x_i) P(X=xi),所以只用比较他们的分子大小即可。

要求的概率转化为求一个条件概率和一个先验:
P ( X = x ∣ Y = c j )    P ( Y = c j ) P\left(X=x\vert Y=c_j\right)\;\\P\left(Y=c_j\right) P(X=xY=cj)P(Y=cj)
先验我们是知道的,现在来看看这个条件概率:
先把X按n维展开
P ( X = x ∣ Y = c j )    = P ( W 1 = ω 1 , W 2 = ω 2 . . . . W n = ω n    ∣    Y = c j ) P\left(X=x\vert Y=c_j\right)\;=P(W_1=\omega_1,W_2=\omega_2....W_n=\omega_n\;\vert\;Y=c_j) P(X=xY=cj)=PW1=ω1,W2=ω2....Wn=ωnY=cj)
这里我们就有了大问题,w1,w2…wn这有n个维度呢。这里我们会得到很多参数,参数个数为:
K × ∏ h = 1 n S h K\times\prod_{h=1}^nS_h\\ K×h=1nSh
因为每个维度都有很多可能性。这样给计算带来了巨大的麻烦。所以映入朴素的概念。
朴素就是一种假设,假设n维内 任意两个维度之间是无关的. ω i    ⊥ ω j    (      i ≠ j    ;        i , j < n ) \omega_{i\;}\perp\omega_j\;\left(\;\;i\neq j\;;\;\;\;i,j<n\right)\\ ωiωj(i=j;ij<n)

这里举个例子:
P ( A B C ) = P ( A ) P ( B ) P ( C ) P(ABC)=P(A)P(B)P(C) P(ABC)=P(A)P(B)P(C) 当且仅当ABC事件相互独立
这样子我们要求的参数个数就变成了: K ∑ h = 1 n S h K\sum_{h=1}^nS_h Kh=1nSh 不再是指数量级了

现在将要求的条件概率写成n维连乘的形式
P ( X = x ∣ Y = c j )    = ∏ h = 1 n P ( W h = ω h    ∣    Y = c j ) P\left(X=x\vert Y=c_j\right)\;=\prod_{h=1}^nP(W_h=\omega_h\;\vert\;Y=c_j)\\ P(X=xY=cj)=h=1nPWh=ωhY=cj
接着把单个维度的可能性也展开:
P ( W h = ω h ∣ Y = c j ) = ∏ t = 1 S h    P ( ω h = S h t ∣ Y = c j ) I { ω h = S h t , Y = c j }    P(W_h=\omega_h\vert Y=c_j)=\prod_{t=1}^{S_h}\;P{(\omega_h=S_{ht}\vert Y=c_j)}^{I\{\omega_h=S_{ht},Y=c_j\}}\; P(Wh=ωhY=cj)=t=1ShP(ωh=ShtY=cj)I{ωh=Sht,Y=cj}
为了简化参数(参数就是不知道的概率,就是上面说过的先验和这个条件概率)
P ( W h = ω h ∣ Y = c j ) = ∏ t = 1 S h    θ h t I { ω h = S h t , Y = c j } P(W_h=\omega_h\vert Y=c_j)=\prod_{t=1}^{S_h}\;\theta_{ht}^{I\{\omega_h=S_{ht},Y=c_j\}}\\ P(Wh=ωhY=cj)=t=1ShθhtI{ωh=Sht,Y=cj}
条件概率最终化简为:
P ( X = x ∣ Y = c j ) = ∏ h = 1 n ∏ t = 1 S h    θ h t I { ω h = S h t , Y = c j } P(X=x\vert Y=c_j)=\prod_{h=1}^n\prod_{t=1}^{S_h}\;\theta_{ht}^{I\{\omega_h=S_{ht},Y=c_j\}}\\ P(X=xY=cj)=h=1nt=1ShθhtI{ωh=Sht,Y=cj}

(三)多项式模型 MLE 最大似然估计:

最大似然函数:
(现在要估计的参数就是先验和条件概率,为了方便,就简写为参数)
l ( 参 数 ) = log ⁡ ∏ i = 1 N P ( X Y ) \mathcal l(\mathrm{参数})=\log\prod_{i=1}^N P(XY) l()=logi=1NP(XY)
现在用之前的概率公式转换为
⇒ log ⁡ ∏ i = 1 N P ( X ∣ Y ) × P ( Y ) \Rightarrow\log \prod_{i=1}^N P(X\vert Y)\times P(Y) logi=1NP(XY)×P(Y)
n维展开特征维度
⇒ log ⁡ ∏ i = 1 N      [ ∏ h = 1 n P ( W j i = ω j i    ∣ Y = c j ) ] × P ( Y ) \Rightarrow\log\prod_{i=1}^N\;\;\begin{bmatrix}\prod_{h=1}^nP(W_j^i=\omega_j^i\;\vert Y=c_j)\end{bmatrix}\times P(Y) logi=1N[h=1nP(Wji=ωjiY=cj)]×P(Y)
此时 P(Y)可以用先验参数化
P ( Y ) = ∏ j = 1 K P ( Y = c j ) I { Y = c j } P(Y)=\prod_{j=1}^KP{(Y=c_j)}^{\boldsymbol I\boldsymbol\{\boldsymbol Y\boldsymbol={\boldsymbol c}_{\mathbf j}\boldsymbol\}}\\ P(Y)=j=1KP(Y=cj)I{Y=cj}
P ( Y ) = ∏ j = 1 K π j I { Y = c j } P(Y)=\prod_{j=1}^K\pi_j^{\boldsymbol I\boldsymbol\{\boldsymbol Y\boldsymbol={\boldsymbol c}_{\mathbf j}\boldsymbol\}} P(Y)=j=1KπjI{Y=cj}

走到这里,我们简化得到了两个参数 π j      θ h t \pi_j\;\;\theta_{ht} πjθht,现在继续用MLE估计它们
⇒ log ⁡ ∏ i = 1 N      [ ∏ h = 1 n P ( W j i = ω j i    ∣ Y = c j ) ] × ∏ j = 1 K P ( Y = c j ) I { Y = c j }    \Rightarrow\log\prod_{i=1}^N\;\;\begin{bmatrix}\prod_{h=1}^nP(W_j^i=\omega_j^i\;\vert Y=c_j)\end{bmatrix}\times\prod_{j=1}^KP{(Y=c_j)}^{I\{Y=c_j\}}\; logi=1N[h=1nP(Wji=ωjiY=cj)]×j=1KP(Y=cj)I{Y=cj}
将参数带入:
⇒ log ⁡ ∏ i = 1 N    [    [ ∏ h = 1 n ∏ t = 1 S h θ h t I { ω j = S h t , Y = c j } ] × ∏ j = 1 K π j I { Y = c j } ] \Rightarrow\log\prod_{i=1}^N\;\left[\;\begin{bmatrix}\prod_{h=1}^n\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{bmatrix}\times\prod_{j=1}^K\pi_j^{I\{Y=c_j\}}\right] logi=1N[[h=1nt=1ShθhtI{ωj=Sht,Y=cj}]×j=1KπjI{Y=cj}]
⇒ ∑ i = 1 N    [ log ⁡    [ ∏ h = 1 n ∏ t = 1 S h θ h t I { ω j = S h t , Y = c j } ] + log ⁡ ∏ j = 1 K π j I { Y = c j } ] \Rightarrow\sum_{i=1}^N\;\left[\log\;\begin{bmatrix}\prod_{h=1}^n\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{bmatrix}+\log\prod_{j=1}^K\pi_j^{I\{Y=c_j\}}\right] i=1N[log[h=1nt=1ShθhtI{ωj=Sht,Y=cj}]+logj=1KπjI{Y=cj}]
⇒ ∑ i = 1 N    [    ∑ h = 1 n log ⁡ ∏ t = 1 S h θ h t I { ω j = S h t , Y = c j } + ∑ j = 1 K log ⁡ π j I { Y = c j } ] \Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\log\prod_{t=1}^{S_h}\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{array}+\sum_{j=1}^K{\log\pi_j}^{I\{Y=c_j\}}\right] i=1N[h=1nlogt=1ShθhtI{ωj=Sht,Y=cj}+j=1KlogπjI{Y=cj}]
⇒ ∑ i = 1 N    [    ∑ h = 1 n ∑ t = 1 S h log ⁡ θ h t I { ω j = S h t , Y = c j } + ∑ j = 1 K log ⁡ π j I { Y = c j } ] \Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\sum_{t=1}^{S_h}\log\theta_{ht}^{I\{\omega_j=S_{ht},Y=c_j\}}\end{array}+\sum_{j=1}^K{\log\pi_j}^{I\{Y=c_j\}}\right] i=1N[h=1nt=1ShlogθhtI{ωj=Sht,Y=cj}+j=1KlogπjI{Y=cj}]
利用对数性质
⇒ ∑ i = 1 N    [    ∑ h = 1 n ∑ t = 1 S h I { ω j = S h t , Y = c j } × log ⁡ θ h t + ∑ j = 1 K I { Y = c j } × log ⁡ π j ] \Rightarrow\sum_{i=1}^N\;\left[\;\begin{array}{c}\sum_{h=1}^n\sum_{t=1}^{S_h}I\{\omega_j=S_{ht},Y=c_j\}\times\log\theta_{ht}^{}\end{array}+\sum_{j=1}^KI\{Y=c_j\}\times{\log\pi_j}\right] i=1N[h=1nt=1ShI{ωj=Sht,Y=cj}×logθht+j=1KI{Y=cj}×logπj]
到这一步,最大似然函数已经化简到一个很好的状态了。
现在附上我们的约束项
{ ∑ j = 1 K π j = 1    ∑ t = 1 S θ h t = 1    \left\{\begin{array}{l}\sum_{j=1}^K\pi_j=1\;\\\\\\\sum_{t=1}^S\theta_{ht}=1\;\end{array}\right. j=1Kπj=1t=1Sθht=1
带有约束项的极值求解可以通过拉格朗日乘数法方便求解
L ( θ h t , π j ) = l ( θ h t , π j ) + α ( 1 − ∑ j = 1 K π j ) + ∑ h = 1 n β ( 1 − ∑ θ h t t = 1 S h ) L(\theta_{ht},\pi_j)=\mathcal l(\theta_{ht},\pi_j)+\alpha\left(1-\sum_{j=1}^K\pi_j\right)+\sum_{h=1}^n\beta(1-\overset{S_h}{\underset{t=1}{\sum\theta_{ht}}}) L(θht,πj)=l(θht,πj)+α(1j=1Kπj)+h=1nβ(1t=1θhtSh)
现在对两个参数求导 并置为0

对于 p i j pi_j pij:

∂ L ( θ h t , π j ) ∂ π j = ∂ [ ∑ i = 1 N ∑ j = 1 K I { Y = c j ​ } log ⁡ π j + α ( 1 − ∑ j = 1 K π j ) ] ∂ π j = 0 \\\frac{\partial L(\theta_{ht},\pi_j)}{\partial\pi_j}=\frac{\partial\begin{bmatrix}{\displaystyle\sum_{i=1}^N}{\displaystyle\sum_{j=1}^K}I\{Y=c_j​\}\log\pi_j+\alpha\left(1-\sum_{j=1}^K\pi_j\right)\end{bmatrix}}{\partial\pi_j}=0 πjL(θht,πj)=πj[i=1Nj=1KI{Y=cj}logπj+α(1j=1Kπj)]=0
⇒ ∑ j = 1 K [ ∑ i = 1 N I { Y = c j ​ } π j − α ] = 0 \Rightarrow\sum_{j=1}^K\left[\sum_{i=1}^N\frac{I\{Y=c_j​\}}{\pi_j}-\alpha\right]=0 j=1K[i=1NπjI{Y=cj}α]=0
⇒ ∑ i = 1 N I { Y = c j ​ } π j − α = 0 \Rightarrow\sum_{i=1}^N\frac{I\{Y=c_j​\}}{\pi_j}-\alpha=0 i=1NπjI{Y=cj}α=0

对于 θ h t \theta_{ht} θht:
⇒ ∂ [ ∑ i = 1 N ​ ∑ h = 1 n ∑ t = 1 S h ​ I { ω i j = S h t ​ , Y = c j } ​ × l o g θ h t + ∑ h = 1 n β h ( 1 − ∑ θ h t t = 1 S h ) ​ ​ ] ∂ θ h t = 0 \Rightarrow\frac{\partial\left[{\displaystyle\sum_{i=1}^N}​{\displaystyle\sum_{h=1}^n}{\displaystyle\sum_{t=1}^{S_h}}​I\{{\omega^i}_j=S_{ht}​,Y=cj\}​\times log\theta_{ht}+\sum_{h=1}^n\beta_h(1-\overset{S_h}{\underset{t=1}{\sum\theta_{ht}}})​​\right]}{\partial\theta_{ht}}=0 θht[i=1Nh=1nt=1ShI{ωij=Sht,Y=cj}×logθht+h=1nβh(1t=1θhtSh)]=0
∂ θ h t = 0 ⇒ ∑ h = 1 n ∑ t = 1 S h [ ∑ i = 1 N I { ω i j = S h t ​ , Y = c j } θ h t − β h ​ ] = 0 {\partial\theta_{ht}}=0\\\Rightarrow\sum_{h=1}^n\sum_{t=1}^{S_h}\left[\sum_{i=1}^N\frac{I\{{\omega^i}_j=S_{ht}​,Y=cj\}}{\theta_{ht}}-\beta_h​\right]=0 θht=0h=1nt=1Sh[i=1NθhtI{ωij=Sht,Y=cj}βh]=0
∂ θ h t = 0 ⇒ ∑ i = 1 N I { ω i j = S h t ​ , Y = c j } θ h t − β h ​ = 0 {\partial\theta_{ht}}=0\\\Rightarrow\sum_{i=1}^N\frac{I\{{\omega^i}_j=S_{ht}​,Y=cj\}}{\theta_{ht}}-\beta_h​=0 θht=0i=1NθhtI{ωij=Sht,Y=cj}βh=0
综上:
⇒ { π j = ∑ i = 1 N I { Y = c j } α θ h t = ∑ i = 1 N I { ω j i = S h t , Y = c j } β h \Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}}\alpha\\\\\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\beta_h}\end{array}\right. πj=αi=1NI{Y=cj}θht=βhi=1NI{ωji=Sht,Y=cj}
现在联立约束项和偏微分结果

⇒ { α = ∑ i = 1 N I { Y = c j } π j = ∑ j = 1 K ∑ i = 1 N I { Y = c j } ∑ j = 1 K π j = ∑ j = 1 K ∑ i = 1 N I { Y = c j } β h = ∑ i = 1 N I { ω j i = S h t , Y = c j } θ h t = ∑ t = 1 S j ∑ i = 1 N I { ω j i = S h t , Y = c j } ∑ t = 1 S j θ h t = ∑ t = 1 S j ∑ i = 1 N I { ω j i = S h t , Y = c j } \Rightarrow\left\{\begin{array}{l}\alpha=\frac{\sum_{i=1}^NI\{Y=c_j\}}{\pi_j}=\frac{{\displaystyle\sum_{j=1}^K}\sum_{i=1}^NI\{Y=c_j\}}{\sum_{j=1}^K\pi_j}=\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}\\\beta_h=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\theta_{ht}}=\frac{\displaystyle\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}}{\sum_{t=1}^{S_j}\theta_{ht}}=\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}\end{array}\right. α=πji=1NI{Y=cj}=j=1Kπjj=1Ki=1NI{Y=cj}=j=1Ki=1NI{Y=cj}βh=θhti=1NI{ωji=Sht,Y=cj}=t=1Sjθhtt=1Sji=1NI{ωji=Sht,Y=cj}=t=1Sji=1NI{ωji=Sht,Y=cj}
⇒ { π j = ∑ i = 1 N I { Y = c j } ∑ j = 1 K ∑ i = 1 N I { Y = c j } = N j N = N c j 类 型 的 文 章 数 N 样 本 总 数 θ h t = ∑ i = 1 N I { ω j i = S h t , Y = c j } ∑ t = 1 S j ∑ i = 1 N I { ω j i = S h t , Y = c j } = N 第 c j 类 单 词 ω j 出 现 的 个 数 N 第 c j 类 单 词 所 有 单 词 出 现 的 个 数 \Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}}{\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}}=\frac{N_j}N=\frac{N_{c_j\mathrm{类型的文章数}}}{N_{\mathrm{样本总数}}}\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}}{\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}}=\frac{N_{第c_j\mathrm{类单词}\omega_j\mathrm{出现的个数}}}{N_{第c_j\mathrm{类单词所有单词出现的个数}}}\end{array}\right. πj=j=1Ki=1NI{Y=cj}i=1NI{Y=cj}=NNj=NNcjθht=t=1Sji=1NI{ωji=Sht,Y=cj}i=1NI{ωji=Sht,Y=cj}=NcjNcjωj

(四)拉普拉斯平滑

为了避免乘0 或除0的情况,
⇒ { π j = ∑ i = 1 N I { Y = c j } + 1 ∑ j = 1 K ∑ i = 1 N I { Y = c j } + K θ h t = ∑ i = 1 N I { ω j i = S h t , Y = c j } + 1 ∑ t = 1 S j ∑ i = 1 N I { ω j i = S h t , Y = c j } + S j \Rightarrow\left\{\begin{array}{l}\pi_j=\frac{\sum_{i=1}^NI\{Y=c_j\}+1}{\sum_{j=1}^K\sum_{i=1}^NI\{Y=c_j\}+K}\\\theta_{ht}=\frac{{\displaystyle\sum_{i=1}^N}I\{\omega_j^i=S_{ht},Y=c_j\}+1}{\sum_{t=1}^{S_j}\sum_{i=1}^NI\{\omega_j^i=S_{ht},Y=c_j\}+S_j}\end{array}\right. πj=j=1Ki=1NI{Y=cj}+Ki=1NI{Y=cj}+1θht=t=1Sji=1NI{ωji=Sht,Y=cj}+Sji=1NI{ωji=Sht,Y=cj}+1

总结:由此,我们得到了很好的估计参数 θ h t \theta_{ht} θht π j \pi_j πj 可以把他们带入后验的概率表达式中,输入一个未知样本X,最后得到类别可能性最大的那个类别,即为最终输出。

  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值