李航统计学习第四章朴素贝叶斯

最新推荐文章于 2020-04-03 15:11:00 发布

丁耗

最新推荐文章于 2020-04-03 15:11:00 发布

阅读量198

点赞数

分类专栏：统计学习方法——李航文章标签：机器学习统计学习人工智能数据挖掘

本文链接：https://blog.csdn.net/dh653667765/article/details/80905370

版权

统计学习方法——李航专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第四章朴素贝叶斯

输入空间 $X\subseteq \bf R^n$ 为 $n$ 维向量集合，输出空间为类别标记集合 $Y=\{c_1,c_2,\cdots,c_K\}$
训练集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$

算法思想

首先学习先验概率分布：

P (Y = c k), k = 1, 2, \dots, K

$P(Y=c_k),\quad k=1,2,\cdots,K$
然后学习条件概率分布：

P (X = x | Y = c k) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k), k = 1, 2, \dots, K

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k),\quad k=1,2,\cdots,K$
朴素贝叶斯对该条件概率做了条件独立性假设，正是由于该假设得名

P (X = x | Y = c K) = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k) (1) (2)

$\begin{align} P(X=x|Y=c_K)&=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\ &=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k) \end{align}$
最后计算后验概率：

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k ) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) k = 1, 2, \dots, K (3) (4)

$\begin{align} P(Y=c_k|X=x)&=\frac{P(X=x|Y=c_k)P(Y=c_k)}{{\sum}_kP(X=x|Y=c_k)P(Y=c_k)}\\ &=\frac{P(Y=c_k){\prod}_jP(X^{(j)}=x^{(j)}|Y=c_k)}{{\sum}_kP(Y=c_k){\prod}_jP(X^{(j)}=x^{(j)}|Y=c_k)}\quad k=1,2,\cdots,K \end{align}$
于是朴素贝叶斯分类器可以表示为：

y = f (x) = a r g max c k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k )

$y=f(x)=arg{\max_{c_k}}\frac{P(Y=c_k){\prod}_jP(X^{(j)}=x^{(j)}|Y=c_k)}{{\sum}_kP(Y=c_k){\prod}_jP(X^{(j)}=x^{(j)}|Y=c_k)}$
由于对于所有的

ck c k $c_k$ 上面式子的分母相同，因此：

y = a r g max c k P (Y = c k) \prod j P (X (j) = x (j) | Y = c k)

$y=arg{\max_{c_k}}{P(Y=c_k){\prod}_jP(X^{(j)}=x^{(j)}|Y=c_k)}$
后验概率最大化等价于期望风险最小化，因此最后选择概率最大的类别

参数估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)}|Y=c_k)$
可以采用极大似然估计法去估计相应的概率，先验概率 $P(Y=c_k)$ 的估计为：

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N k = 1, 2, \dots, K

$P(Y=c_k)=\frac {\sum_{i=1}^{N}I(y_i=c_k)}{N}\quad k=1,2,\cdots,K$
设第

j j $j$ 个特征

x^{(j)}

$x^{(j)}$ 可能取值的集合为

{aj1,aj2,⋯,ajSj} { a j 1 , a j 2 , ⋯ , a j S j } $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ，条件概率

P(X(j)=ajl|Y=ck) P ( X ( j ) = a j l | Y = c k ) $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计为：

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K (5) (6)

$\begin{align} &P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}\\ &j=1,2,\cdots,n;\quad l=1,2,\cdots,S_j;\quad k=1,2,\cdots,K \end{align}$
式中

x(j)i x i ( j ) $x_i^{(j)}$ 是第

i i $i$ 个样本的第

j

$j$ 个特征值；

ajl a j l $a_{jl}$ 是第

j j $j$ 个特征的可能的第

l

$l$ 个取值，

I I <script type="math/tex" id="MathJax-Element-27">I</script>为指示函数

丁耗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李航统计学习第四章朴素贝叶斯

第四章朴素贝叶斯输入空间X⊆RnX⊆RnX\subseteq \bf R^n为nnn维向量集合，输出空间为类别标记集合Y={c1,c2,⋯,cK}Y={c1,c2,⋯,cK}Y=\{c_1,c_2,\cdots,c_K\} 训练集T={(x1,y1),(x2,y2),⋯,(xN,yN)}T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2)...
复制链接

扫一扫