第七章贝叶斯分类器(待补)

最新推荐文章于 2022-06-17 22:22:30 发布

遨游的菜鸡

最新推荐文章于 2022-06-17 22:22:30 发布

阅读量282

点赞数

分类专栏：机器学习周志华(西瓜书)

本文链接：https://blog.csdn.net/qq_34405401/article/details/105090817

版权

机器学习周志华(西瓜书) 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

文章目录

题
7.1
7.2
7.3（待补）
7.4
7.5
7.6(待补)
7.7
7.8
7.9(待补)
7.10(待补)

题

在这里插入图片描述

7.1

西瓜数据集3.0(P84)

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否

在这里插入图片描述

7.2

朴素贝叶斯分类器是建立在属性条件独立性假设上的。当属性不独立时，且所有样本不独立的属性取值相同、分类也相同，那么此时朴素贝叶斯分类器也将产生最优分类器。

7.3（待补）

7.4

采用P149的办法，将式子对数化，即将连乘化为连加。因此式子(7.15)变为：

$h_{n b}(x)=\underset{\theta}{\arg \max } \log (P(c))\sum_{i=1}^{d} \log \left(P\left(x_{i} | c\right)\right)$

7.5

解释一:原文链接：https://blog.csdn.net/icefire_tyh/article/details/52167273

假设1类样本均值为 $u_1$ ，2类样本均值为 $u_2$
由于数据满足同方差的高斯分布，当样本足够大时，可以认为
线性判别分析公式 $J=\frac{|w^T(u_1-u_2)|^2}{w^T(Σ_1+Σ_2)w}$ 求最大值
对 $\frac{1}{J}=\frac{w^T(Σ_1+Σ_2)w}{|w^T(u_1-u_2)|^2}=\sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2}$ 求最小值
最优贝叶斯分类器使每个训练样本的后验概率P(c|x)P(c|x)最大，对应线性判别分析中，即离对应分类的中心距离(平方)除以两个分类中心的距离(平方)越小。
即求 $\sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2}$ 的最小值
两个式子相同，所以线性判别分析产生最优贝叶斯分类器。

解释二：https://zhuanlan.zhihu.com/p/51768750
在这里插入图片描述

7.6(待补)

AODE:P155

7.7

(7.15):先验概率项是 $P(c)=\frac{|D_c|}{D}$ ，题中说明一共有两个类c，一个类需要至少30个样例，即 $P(C_1)$ 的估算就需要30个，即 $D_{c1}|$ 需要30个，因此共需要60个.

(7.23):先验概率项是 $P(c,x_i)=\frac{|D_{c,x_i}|+1}{|D|+N+N_i}$ ,其中 $D_{c,x_i}|$ 是类别为c且在第i个属性上取值为 $x_i$ 的集合。因此意味着任意 $c,x_i$ 的组合至少出现30次。

属性二值（+1，-1）、类二类（0，1）：
- 最好情况：
  当d=1时，0和-1的组合30个，0和+1的组合30个，1和-1的组合30个，1和+1的组合30个，一共120个。
  当d=2时，假设属性1取+1时，属性2正好也取+1；属性1取-1时，属性2也去-1，因此即（0 +1 +1） 30个，（0 -1 -1）30个，（1 +1 +1）30个，（1 -1 -1）30个，此时刚好满足任意 $c,x_i$ 的组合至少出现30次，且一共120个
  因此，最好情况不管d取何值，共要120个
最坏情况
- 120个样子中，第二个属性d2都取相同的值 +1 ，那么为了估算 $P(c，x_2=-1)$ 需要额外60个样本，总计180个样本，同理计算出d=2,3,4… 时的样本数，即每多一个特征，最坏情况需要多加额外60个样本， d=n时，需要 60(n+1)个样本。

即最好120，最坏 60(n+1)

7.8

根据P157的公式(7.26)可知：
在这里插入图片描述

7.9(待补)

7.10(待补)

遨游的菜鸡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第七章贝叶斯分类器(待补)

文章目录题7.17.27.3（待补）7.47.57.6(待补)7.77.87.9(待补)7.10(待补)题7.1西瓜数据集3.0(P84)编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0....
复制链接

扫一扫