西瓜数据集如下
x1 x2 x3 label score
0 青绿 0.697 0.460 0 71
1 乌黑 0.774 0.376 0 92
2 乌黑 0.634 0.264 0 86
3 青绿 0.608 0.318 0 79
4 浅白 0.556 0.215 0 91
5 青绿 0.403 0.237 0 88
6 乌黑 0.481 0.149 0 85
7 乌黑 0.437 0.211 0 94
8 乌黑 0.666 0.091 1 31
9 青绿 0.243 0.267 1 22
10 浅白 0.245 0.057 1 16
11 浅白 0.343 0.099 1 29
12 青绿 0.639 0.161 1 11
13 浅白 0.657 0.198 1 18
14 乌黑 0.360 0.370 1 15
15 浅白 0.593 0.042 1 24
16 青绿 0.719 0.103 1 18
数据分析
- 分类标签是label
- 回归标签是score
- 离散型特征有x1
- 连续型特征有x2,x3
- 以香农熵增益为构树指标
离散特征构树代码实现如下
import pandas as pd
import numpy as np
path =