决策树（二）—— ID3和C4.5

最新推荐文章于 2023-04-07 09:55:08 发布

木子六日

最新推荐文章于 2023-04-07 09:55:08 发布

阅读量383

点赞数

分类专栏：机器学习/深度学习文章标签：决策树机器学习 python 算法

本文链接：https://blog.csdn.net/Paul_1i/article/details/104250547

版权

机器学习/深度学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

ID3和C4.5

决策树

看这张图就明白了。

决策树

简单来说就是根据特征构造一棵树，叶子结点代表了分类的结果，叶子结点到根节点的路径代表了不同特征的组合。

也就是说我们认为不同特征的组合造成了分类结果的不同。

ID3

那我们怎么构造这棵树呢？把哪些特征放在上面哪些放在下面呢？

上一篇博客提到了信息熵的相关知识。

ID3算法就是根据信息增益来排序的。

我们自然是把最重要的信息放在上面，这里的重要意味着有了这个信息，结果的不确定性就会小很多。

信息确定前后信息熵的变化称为信息增益，某特征的信息增益越大，也就说明这一特征与结果的相关性越高，对于分类的重要性也就越高了。

C4.5

不同于ID3，C4.5使用信息增益比来对特征进行排序。在上上一篇博客中也有对于信息增益比的介绍，这里不做赘述。

简单来说C4.5避免了特征多叉带来的信息增益过大问题，使用某特征单位熵下的信息增益来衡量特征的优先级。

sklearn的实现

sklearn默认使用CART算法，我们要用熵来算的话，把criterion='entropy’即可。这里的entropy代表用熵来算。

import csv
from sklearn import tree
from sklearn import preprocessing
from sklearn.feature_extraction import DictVectorizer

# 读数据
Dtree = open('../data/AllElectronics.csv','r')
reader = csv.reader(Dtree)
headers = reader.__next__()

featureList = []
labelList = []

for row in reader:
    labelList.append(row[-1])
    rowDic = {}
    for i in range(1,len(row)-1):
        rowDic[headers[i]] = row[i]
    featureList.append(rowDic)

# 把数据转化成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
# print(vec.get_feature_names())

# 将标签转化为01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)

# 创建决策树模型
model = tree.DecisionTreeClassifier(criterion='entropy')
model.fit(x_data,y_data)

prediction = model.predict(x_data)
print("预测值：",prediction)
print("实际值：",y_data.T)