朴素贝叶斯(分类)推导

本文详细介绍了朴素贝叶斯模型的推导过程,从生成模型出发,利用条件独立假设,通过最大似然优化参数,最终得出概率参数π和θ的计算公式,即πk=∑u=1ununk和θij=∑v=1v∑i;y=kniv∑i;y=knij,揭示了朴素贝叶斯分类器中类别占比和词频比率的计算原理。
摘要由CSDN通过智能技术生成

传统的分类器朴素贝叶斯很多人都知道怎么用,但是有没有想过它的原理,它是怎么样被一步一步的推导出来的。今天咱们就推导一下朴素贝叶斯模型。
现在有数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } D=\{(x^1,y^1),(x^2,y^2),...,(x^n,y^n)\} D={ (x1,y1),(x2,y2),...,(xn,yn)}
x x x表示的是一个文档的所有单词
y y y表示的是一个文档属于的类别。
n n n表示的是文档的数量

首先我们知道朴素贝叶斯是一个生成模型因此我们的目标函数可以写成:
p ( D ) = ∏ i = 1 n p ( x i , y i ) = ∏ i = 1 n p ( x i ∣ y i ) ⋅ p ( y i ) = ∏ i = 1 n p ( x 1 i , x 2 i , x 3 i , . . . , x m i ∣ y i ) ⋅ p ( y i ) p(D)= \prod_{i=1}^np(x^i,y^i)= \prod_{i=1}^np(x^i|y^i)\cdot p(y^i)= \prod_{i=1}^np(x^i_1,x^i_2,x^i_3,...,x^i_m|y^i)\cdot p(y^i) p(D)=i=1np(xi,yi)=i=1np(xiyi)p(yi)=i=1np(x1i,x2i,x3i,...,xmiyi)p(yi)

上面就是一个正常的生成模型的样子,相当于一个框架吧,下面我们加入朴素贝叶斯的核心思想:条件独立假设,所以我们的公式可以写成:

p ( D ) = ∏ i = 1 n ∏ j = 1 m p ( x j i ∣ y i ) ⋅ p ( y i ) p(D)= \prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i) p(D)=i=1nj=1mp(xjiyi)p(yi)

下面我们的目标就是最大似然优化参数啦。也就是:

a r g m a x p ( D ) = a r g m a x ∏ i = 1 n ∏ j = 1 m p ( x j i ∣ y i ) ⋅ p ( y i ) = a r g m a x log ⁡ [ ∏ i = 1 n ∏ j = 1 m p ( x j i ∣ y i ) ⋅ p ( y i ) ] argmaxp(D)=argmax \prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i)=argmax\log [ \prod_{i=1}^n \prod_{j=1}^mp(x^i_j|y^i)\cdot p(y^i)] argmaxp(D)=argmaxi=1nj=1mp(xjiyi)p(yi)=argmaxlog[i=1nj=1mp(xjiyi)p(yi)]

= a r g m a x log ⁡ [ ∏ i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值