DM Hw4

最新推荐文章于 2024-08-07 21:56:36 发布

sereinXH

最新推荐文章于 2024-08-07 21:56:36 发布

阅读量627

点赞数 8

文章标签：人工智能数据挖掘算法

本文链接：https://blog.csdn.net/sereinXH/article/details/138341873

版权

DM Hw4

1
- a
- b
- c
2
- a
- b
- c
3
- b
- c
4
- a
- b
- c
- d
- e
5
- a
- b
- c
6
7
- a
- b
8

1

a

划分前的熵： $Entropy_{(0)}=-0.4\cdot log_2\{0.4\}-0.6\cdot log_2\{0.6\}=0.9710$

按照A划分

A = T A = F
+ 4 0
- 3 3
7 3
$Entropy_{(A = T)}=-\frac{4}{7}\cdot log_2{\frac{4}{7}}-\frac{3}{7}\cdot log_2{\frac{3}{7}}=0.9852$
$Entropy_{(A = F)}=-\frac{0}{3}\cdot log_2{\frac{0}{3}}-\frac{3}{3}\cdot log_2{\frac{3}{3}}=0$

所以，信息增益为：
$\Delta_{info-A}=Entropy_{(0)}-\frac{7}{10}Entropy_{(A = T)}-\frac{3}{10}Entropy_{(A = F)}=0.2813$
按照B划分

B = T B = F
+ 3 1
- 1 5
4 6
$Entropy_{(B = T)}=-\frac{3}{4}\cdot log_2{\frac{3}{4}}-\frac{1}{4}\cdot log_2{\frac{1}{4}}=0.8113$
$Entropy_{(B = F)}=-\frac{1}{6}\cdot log_2{\frac{1}{6}}-\frac{5}{6}\cdot log_2{\frac{5}{6}}=0.6500$

所以，信息增益为：
$\Delta_{info-B}=Entropy_{(0)}-\frac{4}{10}Entropy_{(B = T)}-\frac{6}{10}Entropy_{(B = F)}=0.2565$

	A = T	A = F
+	4	0
-	3	3
	7	3

	B = T	B = F
+	3	1
-	1	5
	4	6

所以，比较可得出，应按照A划分

b

按照A划分

$Gini_{(A = T)}=1-(\frac{4}{7})^2-(\frac{3}{7})^2=0.4898$
$Gini_{(A = F)}=1-(\frac{0}{3})^2-(\frac{3}{3})^2=0$

所以，基尼指数为：
$Gini_{(A)}=\frac{7}{10}Gini_{(A = T)}+\frac{3}{10}Gini_{(A = F)}=0.3429$
按照B划分

$Gini_{(B = T)}=1-(\frac{3}{4})^2-(\frac{1}{4})^2=0.3750$
$Gini_{(B = F)}=1-(\frac{1}{6})^2-(\frac{5}{6})^2=0.2778$

所以，基尼指数为：
$Gini_{(B)}=\frac{4}{10}Gini_{(B = T)}+\frac{6}{10}Gini_{(B = F)}=0.3167$

所以，比较可得出，应按照B划分

c

可能的。
由前两问可以看出：熵和基尼指数有在一定的相同范围内变化趋势相同，而它们支持不同的属性，这是因为它们对增益的度量方式不同，可能导致具体结果有一定的不同。

2

a

对于父节点P：
基尼指数： $Gini_P=1 - (\frac{7}{10})^2 - (\frac{3}{10})^2 = 0.42$
错误分类的错误率： $error_P=1 - max\{0.7, 0.3\} = 0.3$

b

对于子节点：
$Gini_{(C_1)}=1-(\frac{3}{3})^2-(\frac{0}{3})^2=0$
$Gini_{(C_2)}=1-(\frac{4}{7})^2-(\frac{3}{7})^2=0.4898$

所以，加权基尼指数为：
$Gini_C=\frac{3}{10}Gini_{(C_1)}+\frac{7}{10}Gini_{(C_2)}=0.3429$

如果将基尼指数用作不纯性测量，会考虑这个属性测试条件，因为：
从计算结果可得出，子结点的加权基尼指数更低，即子结点纯度更高。

c

加权错误率为：
$error_C=\frac{3+0}{10}=0.3$
如果使用错误分类率作为不纯性测量，可以考虑也可以不考虑这个属性测试条件，因为：
从计算结果可得出，子结点的加权错误分类率与父节点相同。

3

第一层：属性X、Y和Z的错误率。
- 属性X：
  
  X C1 C2
  0 60 60
  1 40 40
  X的分类错误率为： $error_X=\frac{60 + 40}{200} = 0.5$
- 属性Y：
  
  Y C1 C2
  0 40 60
  1 60 40
  Y的分类错误率为： $error_Y=\frac{40 + 40}{200} = 0.4$
- 属性Z：
  
  Z C1 C2
  0 30 70
  1 70 30
  Z的分类错误率为： $error_Z=\frac{30 + 30}{200} = 0.3$
因为Z的分类错误率最低，选择Z为第一层的划分属性。
第二层：
- $Z = 0$
  
  X C1 C2
  0 15 45
  1 15 25
  
  Y C1 C2
  0 15 45
  1 15 25
  X和Y的分类错误率相同，均为： $error_{X_1}=error_{Y_1}=\frac{15 + 15}{100} = 0.3$
- $Z = 1$
  
  X C1 C2
  0 45 15
  1 25 15
  
  Y C1 C2
  0 25 15
  1 45 15
  X和Y的分类错误率相同，均为： $error_{X_2}=error_{Y_2}=\frac{15 + 15}{100} = 0.3$

X	C1	C2
0	60	60
1	40	40

Y	C1	C2
0	40	60
1	60	40

Z	C1	C2
0	30	70
1	70	30

X	C1	C2
0	15	45
1	15	25

Y	C1	C2
0	15	45
1	15	25

X	C1	C2
0	45	15
1	25	15

Y	C1	C2
0	25	15
1	45	15

所以总错误率为： $error=\frac{15+15+15+15}{100+100} = 0.3$

b

选择X为第一层的划分属性后：

$X = 0$

Y C1 C2
0 5 55
1 55 5

Z C1 C2
0 15 45
1 45 15
Y分类错误率： $error_{Y_1}=\frac{5 + 5}{120} = 0.0833$
Z分类错误率： $error_{Z_1}=\frac{15 + 15}{120} = 0.25$

所以，选择Y划分
$X = 1$

Y C1 C2
0 35 5
1 5 35

Z C1 C2
0 15 25
1 25 15
Y分类错误率： $error_{Y_1}=\frac{5 + 5}{80} = 0.125$
Z分类错误率： $error_{Z_1}=\frac{15 + 15}{80} = 0.375$

所以，选择Y划分

Y	C1	C2
0	5	55
1	55	5

Z	C1	C2
0	15	45
1	45	15

Y	C1	C2
0	35	5
1	5	35

Z	C1	C2
0	15	25
1	25	15

所以总错误率为： $error=\frac{5+5+5+5}{120+80} = 0.1$

c

比较上两问结果可知：第二问构建的决策树分类错误率比第一问构建的更小，所以：贪心法并不一定能产生最优决策树。

4

a

划分前的分类错误率为： $error_0 = 1 − max( \frac{50}{100}, \frac{50}{100}) = 0.5$

按照A划分

A = T A = F
+ 25 25
- 0 50
$error_{(A=T)} = \frac{0}{25} = 0$
$error_{(A=F)} = \frac{25}{75} = 0.3333$

分类错误率的增益为：
$\Delta_A = error_0 − \frac{25}{100}error_{(A=T)} − \frac{75}{100}error_{(A=F)} = 0.25$
按照B划分

B = T B = F
+ 30 20
- 20 30
$error_{(B=T)} = \frac{20}{50} = 0.4$
$error_{(B=F)} = \frac{20}{50} = 0.4$

分类错误率的增益为：
$\Delta_B = error_0 − \frac{50}{100}error_{(B=T)} − \frac{50}{100}error_{(B=F)} = 0.1$
按照C划分

C = T C = F
+ 25 25
- 25 25
$error_{(C=T)} = \frac{25}{50} = 0.5$
$error_{(C=F)} = \frac{25}{50} = 0.5$

分类错误率的增益为：
$\Delta_C = error_0 − \frac{50}{100}error_{(C=T)} − \frac{50}{100}error_{(C=F)} = 0$

	A = T	A = F
+	25	25
-	0	50

	B = T	B = F
+	30	20
-	20	30

	C = T	C = F
+	25	25
-	25	25

所以，比较增益可得出，应选择A作为第一个划分属性

b

对于 $A = T$ ，已经完全正确分类了，不需要再划分。
对于 $A = F$ ：
划分前的分类错误率为： $error_0= \frac{25}{75} = 0.3333$

按照B划分

B = T B = F
+ 25 0
- 20 30
$error_{(B=T)} = \frac{20}{45} = 0.4444$
$error_{(B=F)} = \frac{0}{30} = 0$

分类错误率的增益为：
$\Delta_B = error_0 − \frac{45}{75}error_{(B=T)} − \frac{30}{75}error_{(B=F)} = 0.0667$
按照C划分

C = T C = F
+ 0 25
- 25 25
$error_{(C=T)} = \frac{0}{25} = 0$
$error_{(C=F)} = \frac{25}{50} = 0.5$

分类错误率的增益为：
$\Delta_C = error_0 − \frac{25}{75}error_{(C=T)} − \frac{50}{75}error_{(C=F)} = 0$

	B = T	B = F
+	25	0
-	20	30

	C = T	C = F
+	0	25
-	25	25

所以，比较增益可得出，应选择B划分

c

$20$

d

选择C为划分属性后：

$C = T$

划分前的分类错误率为： $error_0= \frac{25}{50} = 0.5$
- 按照A划分
  
  A = T A = F
  + 25 0
  - 0 25
  $error_{(A=T)} = \frac{0}{25} = 0$
  $error_{(A=F)} = \frac{0}{25} = 0$
  
  分类错误率的增益为：
  $\Delta_A = error_0 − \frac{25}{50}error_{(A=T)} − \frac{25}{50}error_{(A=F)} = 0.5$
- 按照B划分
  
  B = T B = F
  + 5 20
  - 20 5
  $error_{(B=T)} = \frac{5}{25} = 0.2$
  $error_{(B=F)} = \frac{5}{25} = 0.2$
  
  分类错误率的增益为：
  $\Delta_B = error_0 − \frac{25}{50}error_{(B=T)} − \frac{25}{50}error_{(B=F)} = 0.3$
所以，选择A划分
$C = F$

划分前的分类错误率为： $error_0= \frac{25}{50} = 0.5$
- 按照A划分
  
  A = T A = F
  + 0 25
  - 0 25
  $error_{(A=T)} = \frac{0}{25} = 0$
  $error_{(A=F)} = \frac{25}{50} = 0.5$
  
  分类错误率的增益为：
  $\Delta_A = error_0 − \frac{0}{50}error_{(A=T)} − \frac{50}{50}error_{(A=F)} = 0$
- 按照B划分
  
  B = T B = F
  + 25 0
  - 0 25
  $error_{(B=T)} = \frac{0}{25} = 0$
  $error_{(B=F)} = \frac{0}{25} = 0$
  
  分类错误率的增益为：
  $\Delta_B = error_0 − \frac{25}{50}error_{(B=T)} − \frac{25}{50}error_{(B=F)} = 0.5$
所以，选择B划分

	A = T	A = F
+	25	0
-	0	25

	B = T	B = F
+	5	20
-	20	5

	A = T	A = F
+	0	25
-	0	25

	B = T	B = F
+	25	0
-	0	25

总错误率为： $error = 0$

e

有前几问的结果可以看出：贪心法并不一定能产生最优决策树。

5

a

乐观方法的泛化错误率： $error=\frac{3}{10}=0.3$

b

悲观方法的泛化错误率： $error=\frac{3+4\times0.5}{10}=0.5$

c

$error=\frac{4}{5}=0.8$

6

因为有16个属性，所以为每个内部结点编码的代价为： $log_2(16) = 4$
因为有3个类别，所以为每个叶结点编码的代价为： $\lceil log_2(3)\rceil = 2$
为每个错误编码的代价为： $log_2(n)$

所以：
决策树(a)的总代价为： $\times 4 + 3 \times 2 + 7 \times log_2 n = 14 + 7 \cdot log_2n$
决策树(b)的总代价为： $\times 4 + 5 \times 2 + 4 \times log_2 n = 26 + 4 \cdot log_2 n$

所以：
$n < 16$ 时，(a)更好
$n > 16$ 时，(b)更好

7

a

根据表3.7中的准确率，我认为，决策树 $T_{10}$ 在未知实例上有更好的性能。
因为我认为决策树 $T_{10}$ 在泛化到新实例时可能更可靠，并且可能更少地受到过拟合的影响，虽然决策树 $T_{100}$ 具有更多的叶节点和更复杂的结构，但它在数据集B上的性能相对较差，这可能意味着它过度拟合了数据集A中的特定模式，而这些模式在数据集B中并不适用。所以我会选择决策树 $T_{10}$ 。

b

$T_{10}$ 在数据集(A+B)上的准确率为 $0.85$ ，而 $T_{100}$ 在数据集(A+B)上的准确率为 $0.87$ ，所以我会选择决策树 $T_{100}$ 进行分类。
因为相比之下，决策树 $T_{10}$ 的准确率在整个数据集上略低。这可能表示决策树 $T_{10}$ 在整个数据集上的性能相对较差，而决策树 $T_{100}$ 在整个数据集上的性能相对更好。

8

分类器	决策树	朴素贝叶斯	支持向量机
决策树	0 - 0 - 23	9 - 3 - 11	2 - 7 - 14
朴素贝叶斯	3 - 9 - 11	0 - 0 - 23	0 - 8 - 15
支持向量机	7 - 2 - 14	8 - 0 - 15	0 - 0 - 23

sereinXH

关注

8
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
DM Hw4

具有更多的叶节点和更复杂的结构，但它在数据集B上的性能相对较差，这可能意味着它过度拟合了数据集A中的特定模式，而这些模式在数据集B中并不适用。由前两问可以看出：熵和基尼指数有在一定的相同范围内变化趋势相同，而它们支持不同的属性，这是因为它们对增益的度量方式不同，可能导致具体结果有一定的不同。比较上两问结果可知：第二问构建的决策树分类错误率比第一问构建的更小，所以：贪心法并不一定能产生最优决策树。从计算结果可得出，子结点的加权基尼指数更低，即子结点纯度更高。因为Z的分类错误率最低，选择Z为第一层的划分属性。
复制链接

扫一扫