DM Hw5

最新推荐文章于 2024-09-11 22:45:10 发布

sereinXH

最新推荐文章于 2024-09-11 22:45:10 发布

阅读量400

点赞数 5

文章标签：数据挖掘

本文链接：https://blog.csdn.net/sereinXH/article/details/138687105

版权

Hw 5

1
2
- a
- b
- c
- d
- e
- f
- g
- g
3
- a
- b
- c
- d
- e
- f
4
- a
- b
- c
- d
5
- a
- b
- c
- d
- e
6
- a
- b
- c
- d
- e
7
- a
- b
- c
- d
- e
8
- a
- b
- c
9
- a
- b
10
- a
- b
- c
11
12
- a
- b
- c
- d
13

1

该决策树不能简化

2

a

$Gini=1-(0.5)^2-(0.5)^2=0.5$

b

对于每个顾客ID，结点 $G ini = 0$ ，所以总体： $Gini_{(CustomerID)}=0$

c

性别	男	女
C0	6	4
C1	4	6
	10	10

$Gini_{(Male)}=1-(0.6)^2-(0.4)^2=0.48$
$Gini_{(Female)}=1-(0.4)^2-(0.6)^2=0.48$
所以总体： $Gini_{(Gender)}=0.5\times Gini_{(Male)}+0.5\times Gini_{(Female)}=0.48$

d

车型	家用	运动	豪华
C0	1	8	1
C1	3	0	7
	4	8	8

$Gini_{(Family)}=1-(\frac{1}{4})^2-(\frac{3}{4})^2=0.375$
$Gini_{(Sports)}=1-(\frac{8}{8})^2-(\frac{0}{8})^2=0$
$Gini_{(Luxury)}=1-(\frac{1}{8})^2-(\frac{7}{8})^2=0.21875$
所以总体： $Gini_{(CarType)}=\frac{4}{20}\times Gini_{(Family)}+\frac{8}{20}\times Gini_{(Sports)}+\frac{8}{20}\times Gini_{(Luxury)}=0.1625$

e

衬衣尺码	加大	大	中	小
C0	2	2	3	3
C1	2	2	4	2
	4	4	7	5

$Gini_{(EL)}=1-(0.5)^2-(0.5)^2=0.5$
$Gini_{(L)}=1-(0.5)^2-(0.5)^2=0.5$
$Gini_{(M)}=1-(\frac{3}{7})^2-(\frac{4}{7})^2=0.4898$
$Gini_{(S)}=1-(\frac{2}{5})^2-(\frac{3}{5})^2=0.48$
所以总体： $Gini_{(ShirtSize)}=\frac{4}{20}\times Gini_{(EL)}+\frac{4}{20}\times Gini_{(L)}+\frac{7}{20}\times Gini_{(M)}+\frac{5}{20}\times Gini_{(S)}=0.4914$

f

选择车型属性更好，因为它有最小的 $G ini$ 值

g

因为每一个顾客都有一个新的ID，所以顾客ID属性并没有预测能力。

g

因为每一个顾客都有一个新的ID，所以顾客ID属性并没有预测能力。

3

a

$-\frac{4}{9}\times\log_2{(\frac{4}{9})}-\frac{5}{9}\times\log_2{(\frac{5}{9})} = 0.9911$

b

对于属性 $a_1$

$a_1$	+	-
T	3	1
F	1	4
	4	5

$Entropy_{(a_1)} = \frac{4}{9}\times[-\frac{1}{4}\times\log_2{(\frac{1}{4})}-\frac{3}{4}\times\log_2{(\frac{3}{4})}]+\frac{5}{9}\times[-\frac{1}{5}\times\log_2{(\frac{1}{5})}-\frac{4}{5}\times\log_2{(\frac{4}{5})}] = 0.7616$

所以，信息增益为： $\Delta=0.9911-0.7616 = 0.2294$

对于属性 $a_2$

$a_2$	+	-
T	2	3
F	2	2
	4	5

$Entropy_{(a_2)} = \frac{5}{9}\times[-\frac{2}{5}\times\log_2{(\frac{2}{5})}-\frac{3}{5}\times\log_2{(\frac{3}{5})}]+\frac{4}{9}\times[-\frac{1}{2}\times\log_2{(\frac{1}{2})}-\frac{1}{2}\times\log_2{(\frac{1}{2})}] = 0.9839$

所以，信息增益为： $\Delta=0.9911-0.9839 = 0.0072$

c

$a_3$	类	划分点	熵	信息增益
1.0	+	2.0	0.8484	0.1427
3.0	-	3.5	0.9885	0.0026
4.0	+	4.5	0.9183	0.0072
5.0 5.0	- -	5.5	0.9839	0.0072
6.0	+	6.5	0.9728	0.0183
7.0 7.0	+ -	7.5	0.8889	0.1022

d

最佳划分是 $a_1$ ，因为 $a_1$ 的信息增益更高

e

$a_1$ 的分类错误率： $error_{(a_1)}=\frac{2}{9}$
$a_2$ 的分类错误率： $error_{(a_2)}=\frac{4}{9}$

所以 $a_1$ 是最佳划分，因为 $a_1$ 的分类错误率更低

f

$Gini_{(a_1)} = \frac{4}{9} \times [1-(\frac{3}{4})^2-(\frac{1}{4})^2] + \frac{5}{9} \times [1-(\frac{4}{5})^2-(\frac{1}{5})^2] = 0.3444$
$Gini_{(a_2)} = \frac{5}{9} \times [1-(\frac{3}{5})^2-(\frac{2}{5})^2] + \frac{4}{9} \times [1-(\frac{2}{4})^2-(\frac{2}{4})^2] = 0.4889$

所以 $a_1$ 是最佳划分，因为 $a_1$ 的 $G ini$ 更低

4

a

不是互斥的

b

是完全的

c

需要排序，测试集很可能不仅由行车里程属性决定，并且会命中多条规则。

d

不需要默认类，每条测试记录都能至少命中一条规则。

5

a

R1： $\frac{4}{5}=0.8$
R2： $\frac{30}{40}=0.75$
R3： $\frac{100}{190}=0.526$
最好规则：R1
最坏规则：R3

b

FOIL信息增益： $FOIL信息增益=p_1\times(log_2\frac{p_1}{p_1+n_1}-log_2\frac{p_0}{p_0+n_0})$

R1： $4\times(log_2\frac{4}{5}-log_2\frac{100}{500})=8$
R2： $30\times(log_2\frac{30}{40}-log_2\frac{100}{500})=57.207$
R3： $100\times(log_2\frac{100}{190}-log_2\frac{100}{500})=139.593$
最好规则：R3
最坏规则：R1

c

似然比统计量： $R=2\sum\limits_{i=1}^{k}f_ilog(\frac{f_i}{e_i})$

R1：
正类的期望频率 $e_+=5\times\frac{100}{500}=1$
负类的期望频率 $e_-=5\times\frac{400}{500}=4$
R： $2\times(4\times log_2\frac{4}{1}+1\times log_2\frac{1}{4})=12$
R2：
正类的期望频率 $e_+=40\times\frac{100}{500}=8$
负类的期望频率 $e_-=40\times\frac{400}{500}=32$
R： $2\times(30\times log_2\frac{30}{8}+10\times log_2\frac{10}{32})=80.852$
R3：
正类的期望频率 $e_+=190\times\frac{100}{500}=38$
负类的期望频率 $e_-=190\times\frac{400}{500}=152$
R： $2\times(100\times log_2\frac{100}{38}+90\times log_2\frac{90}{152})=143.092$
最好规则：R3
最坏规则：R1

d

拉普拉斯度量： $Laplace=\frac{f_++1}{n+k}$

R1： $\frac{4+1}{5+2}=0.714$
R2： $\frac{30+1}{40+2}=0.738$
R3： $\frac{100+1}{190+2}=0.526$
最好规则：R2
最坏规则：R3

e

$m$ 度量： $m估计=\frac{f_++kp_+}{n+k}$

R1： $\frac{4+2\times0.2}{5+2}=0.629$
R2： $\frac{30+2\times0.2}{40+2}=0.724$
R3： $\frac{100+2\times0.2}{190+2}=0.523$
最好规则：R2
最坏规则：R3

6

a

$\frac{2}{5}=0.4$
$\frac{3}{5}=0.6$
$\frac{3}{5}=0.6$
$\frac{2}{5}=0.4$

$\frac{4}{5}=0.8$
$\frac{1}{5}=0.2$
$\frac{3}{5}=0.6$
$\frac{2}{5}=0.4$

$\frac{3}{5}=0.6$
$\frac{2}{5}=0.4$
$\frac{0}{5}=0$
$\frac{5}{5}=1$

b

记 $P(A=0,B=1,C=0)=P_b$

$\begin{aligned}&P(+|A=0,B=1,C=0)\\=&\frac{P(A=0,B=1,C=0|+)\times P(+)}{P(A=0,B=1,C=0)}\\=&\frac{P(A=0|+)\cdot P(B=1|+)\cdot P(C=0|+)\times P(+)}{P(A=0,B=1,C=0)}\\=&\frac{0.4\times0.2\times0.6\times0.5}{P_b}\\=&\frac{0.024}{P_b}\end{aligned}$

$\begin{aligned}&P(-|A=0,B=1,C=0)\\=&\frac{P(A=0,B=1,C=0|-)\times P(-)}{P(A=0,B=1,C=0)}\\=&\frac{P(A=0|-)\cdot P(B=1|-)\cdot P(C=0|-)\times P(-)}{P(A=0,B=1,C=0)}\\=&\frac{0}{P_b}\end{aligned}$

所以，测试样本类标号预测为 +

c

使用 $m$ 度量（ $p=\frac{1}{2}$ 且 $m = 4$ ）
$m估计=\frac{f_+\frac{1}{2}\times4}{5+4}=\frac{f_+2}{9}$

$\frac{4}{9}$
$\frac{5}{9}$
$\frac{5}{9}$
$\frac{4}{9}$

$\frac{6}{9}$
$\frac{3}{9}$
$\frac{5}{9}$
$\frac{4}{9}$

$\frac{5}{9}$
$\frac{4}{9}$
$\frac{2}{9}$
$\frac{7}{9}$

d

计算方法同第二问

$\begin{aligned}&P(+|A=0,B=1,C=0)\\=&\frac{\frac{4}{9}\times\frac{3}{9}\times\frac{5}{9}\times0.5}{P_b}\\=&\frac{0.0412}{P_b}\end{aligned}$

$\begin{aligned}&P(-|A=0,B=1,C=0)\\=&\frac{\frac{5}{9}\times\frac{4}{9}\times\frac{2}{9}\times0.5}{P_b}\\=&\frac{0.0274}{P_b}\end{aligned}$

所以，测试样本类标号预测为 +

e

使用 m估计方法 更好
因为：应该尽量避免有条件概率为0的情况

7

a

$P(A=1|+)=\frac{3}{5}=0.6$
$P(B=1|+)=\frac{2}{5}=0.4$
$P(C=1|+)=\frac{4}{5}=0.8$

$P(A=1|-)=\frac{2}{5}=0.4$
$P(B=1|-)=\frac{2}{5}=0.4$
$P(C=1|-)=\frac{1}{5}=0.2$

b

记 $P(A=1,B=1,C=1)=P_b$

$\begin{aligned}&P(+|A=1,B=1,C=1)\\=&\frac{0.6\times0.4\times0.8\times0.5}{P_b}\\=&\frac{0.096}{P_b}\end{aligned}$

$\begin{aligned}&P(-|A=1,B=1,C=1)\\=&\frac{0.4\times0.4\times0.2\times0.5}{P_b}\\=&\frac{0.016}{K}\end{aligned}$

所以，测试样本类标号预测为 +

c

$\frac{1}{2}$
$\frac{2}{5}$
$\frac{1}{5}$

有： $\times P ( B = 1 ) = P ( A = 1 , B = 1 )$

所以，A与B相互独立

d

$\frac{1}{2}$
$\frac{3}{5}$
$\frac{3}{10}$

有： $\times P ( B = 0 ) = P ( A = 1 , B = 1 )$

所以，A与B相互独立

e

$\frac{3}{5}$
$\frac{2}{5}$
$\frac{1}{5}$

而 $\times P ( B = 1 |+) \neq P ( A = 1 , B = 1 |+)$

所以，给定类+，A与B不独立

8

a

朴素贝叶斯分类器在这个数据集上表现不好，因为对于类A和B来说每个区分属性的条件概率都相同

b

会，因为四个子类的条件概率不同

c

在两类问题上，决策树表现不好，因为用区分属性划分后熵没有增加，而对于四个类，表现会相对提升

9

a

行车里程
$\frac{10}{20} = 0.5$
$\frac{10}{20} = 0.5$
空调
$\frac{25}{40} = 0.625$
$\frac{15}{40} = 0.375$
引擎
$\frac{10}{20} = 0.5$
$\frac{10}{20} = 0.5$
$\frac{15}{20} = 0.75$
$\frac{5}{20} = 0.25$
车的价值
$\frac{12}{16} = 0.75$
$\frac{4}{16} = 0.25$
$\frac{6}{9} = 0.667$
$\frac{3}{9} = 0.333$
$\frac{2}{9} = 0.222$
$\frac{7}{9} = 0.778$
$P (车的价值 = 高 ∣ 引擎 = 差，空调 = 不可用) = 0$
$P (车的价值 = 低 ∣ 引擎 = 差，空调 = 不可用) = 1$

b

$\begin{aligned}&P ( 引擎 = 差，空调 = 不可用 ) \\=&P ( 引擎 = 差，空调 = 不可用，行车里程 = 高，车的价值 = 高) \\&+ P ( 引擎 = 差，空调 = 不可用，行车里程 = 高，车的价值 = 低) \\&+ P ( 引擎 = 差，空调 = 不可用，行车里程 = 低，车的价值 = 高) \\&+ P ( 引擎 = 差，空调 = 不可用，行车里程 = 低，车的价值 = 低) \\=&P ( 车的价值 = 高 | 引擎 = 差，空调 = 不可用 ) \\&× P ( 引擎 = 差 | 行车里程 = 高 ) × P ( 行车里程 = 高 ) × P ( 空调 = 不可用 ) \\&+ P ( 车的价值 = 低 | 引擎 = 差，空调 = 不可用 ) \\&× P ( 引擎 = 差 | 行车里程 = 高 ) × P ( 行车里程 = 高 ) × P ( 空调 = 不可用 ) \\&+ P ( 车的价值 = 高 | 引擎 = 差，空调 = 不可用 ) \\&× P ( 引擎 = 差 | 行车里程 = 低 ) × P ( 行车里程 = 低 ) × P ( 空调 = 不可用 ) \\&+ P ( 车的价值 = 低 | 引擎 = 差，空调 = 不可用 ) \\&× P ( 引擎 = 差 | 行车里程 = 低 ) × P ( 行车里程 = 低 ) × P ( 空调 = 不可用 ) \\=&0.1453\end{aligned}$

10

a

$\begin{aligned}&P( B=好,F=空,G = 空,S=是) \\= &P( B = 好 ) \cdot P( F = 空 )\cdot P( G = 空 | B = 好,F = 空 )\cdot P ( S = 是 | B = 好,F = 空 ) \\= &0.9 × 0.2 × 0.8 × 0.2 \\= & 0.0288\end{aligned}$

b

$\begin{aligned}&P( B = 差,F = 空,G = 非空,S = 否 ) \\= & P( B = 差 ) \cdot P( F = 空 )\cdot P( G = 非空 | B = 差,F = 空 )\cdot P ( S = 否 | B = 差,F = 空 ) \\= &0.1 × 0.2 × 0.1 × 1.0 \\= & 0.002\end{aligned}$

c

$\begin{aligned}&P( S = 是 | B = 差 ) \\= &\sum\limits_{\alpha}P(S = 是 | B = 差,F = \alpha)\cdot P( B = 差 )\cdot P( F = \alpha )\\= & 0 + 0.1 × 0.1 × 0.8 \\= & 0.008\end{aligned}$

11

Boole函数	是否线性可分
a	是
b	是
c	是
d	否

12

a

import matplotlib.pyplot as plt
import numpy as np

# 实例数据
true_labels = ['+', '+', '-', '-', '+', '+', '-', '-', '+', '-']
p_m1 = [0.73, 0.69, 0.44, 0.55, 0.67, 0.47, 0.08, 0.15, 0.45, 0.35]
p_m2 = [0.61, 0.03, 0.68, 0.31, 0.45, 0.09, 0.38, 0.05, 0.01, 0.04]

# 计算真正率（True Positive Rate）和假正率（False Positive Rate）
def calculate_roc(true_labels, probabilities):
    sorted_indices = np.argsort(probabilities)[::-1]  # 根据概率降序排序
    sorted_labels = [true_labels[i] for i in sorted_indices]
    tpr = [0]  # 真正率
    fpr = [0]  # 假正率
    tp = 0  # 真正例数量
    fp = 0  # 假正例数量
    pn = sorted_labels.count('-')  # 负例数量
    pp = sorted_labels.count('+')  # 正例数量

    for label in sorted_labels:
        if label == '+':
            tp += 1
        else:
            fp += 1
        tpr.append(tp / pp)
        fpr.append(fp / pn)

    return fpr, tpr

# 绘制ROC曲线
def plot_roc_curve(fpr, tpr, model_name):
    plt.plot(fpr, tpr, label=model_name)

# 计算M1的ROC曲线
fpr_m1, tpr_m1 = calculate_roc(true_labels, p_m1)

# 计算M2的ROC曲线
fpr_m2, tpr_m2 = calculate_roc(true_labels, p_m2)

# 绘制ROC曲线
plot_roc_curve(fpr_m1, tpr_m1, 'M1')
plot_roc_curve(fpr_m2, tpr_m2, 'M2')

# 绘制对角线
plt.plot([0, 1], [0, 1], 'k--')

# 设置图表标签和标题
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')

# 设置图例位置
plt.legend(loc='lower right')

# 显示图表
plt.show()

ROC曲线图：
在这里插入图片描述

模型 $M_1$ 更好，因为 $M_1$ 曲线覆盖的图像下面积相比 $M_2$ 更大

b

对于 $M_1$ ， $t = 0.5$ 时：

实例	1	2	3	4	5	6	7	8	9	10
类	TP	TP	TN	FP	TP	FN	TN	TN	FN	TN

	+	-
+	3	2
-	1	4

$\frac{TP}{TP + FP}= \frac{3}{3+1}=0.75$

$\frac{TP}{TP + NF} = \frac{3}{3+2}=0.6$

$\frac{2 \cdot P \cdot R}{P + R} = \frac{2\times0.75\times0.6}{0.75+0.6}=0.667$

c

对于 $M_2$ ， $t = 0.5$ 时：

实例	1	2	3	4	5	6	7	8	9	10
类	TP	FN	FP	TN	FN	FN	TN	TN	FN	TN

	+	-
+	1	4
-	1	4

$\frac{TP}{TP + FP}= \frac{1}{1+1}=0.5$

$\frac{TP}{TP + NF} = \frac{1}{1+4}=0.2$

$\frac{2 \cdot P \cdot R}{P + R} = \frac{2\times0.5\times0.2}{0.5+0.2}=0.286$

模型 $M_1$ 的 $F$ 度量值相比 $M_2$ 更大，说明模型 $M_1$ 性能更好
结果和从ROC曲线中得到的结论一致

d

对于 $M_1$ ， $t = 0.1$ 时：

实例	1	2	3	4	5	6	7	8	9	10
类	TP	TP	FP	FP	TP	TP	TN	FP	TP	FP

	+	-
+	5	0
-	4	1

$\frac{TP}{TP + FP}= \frac{5}{5+4}=0.556$

$\frac{TP}{TP + NF} = \frac{5}{5+0}=1$

$\frac{2 \cdot P \cdot R}{P + R} = \frac{2\times0.556\times1}{0.556+1}=0.714$

$t = 0.1$ 阈值更好
结果与从ROC曲线中得到的结论不一致

13

决策边界为： $f ( x_1 , x_2 ) = x_1x_2$

sereinXH

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
DM Hw5

Hw 512abcdefgg3abcdef4abcd5abcde6abcde7abcde8abc9ab10abc1112abcd131#mermaid-svg-w7MsBtVm3xRcup42 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-w7MsBtVm3xRcup42 .error-icon{fill:#552222;}#mermaid-svg-w7MsBtVm3
复制链接

扫一扫