决策树算法介绍与代码编写

本文介绍了决策树的基本定义和结构,深入讲解了信息论基础,包括熵、条件熵和信息增益,并详细阐述了ID3算法的工作原理。此外,还涵盖了如何在Python中编写决策树代码以及使用Matplotlib绘制树形图。
摘要由CSDN通过智能技术生成

1.基本定义:

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。


2.基本结构:

决策树是一种用于对实例进行分类的树形结构,由节点和有向边组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。如图3-1构造了一个假象的邮件分类系统,它首先检测发送邮件域名地址。如果地址为myEmployer.com,则将其放在分类“无聊时需要阅读的邮件”中。如果不是,则检查邮件内容里是否包含单词“曲棍球”,如果包含则将邮件归类到“需要及时处理的朋友邮件”,如果不包含则将邮件归类到“无需阅读的垃圾邮件”。



3.构造决策树:

首先我们使用 信息论 划分数据集,然后编写代码理论应用到具体的数据集上,最后编写代码构建决策树。

信息论基础:

熵:

熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:

其中n代表X的n种不同的离散取值。而pi代表了X取值为i的概率,log为以2为底的对数。

条件熵:

它度量了我们的X在知道Y以后剩下的不确定性。表达式如下:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是一个基本的决策树算法代码: ```python import numpy as np class DecisionTree: def __init__(self, max_depth=5, min_samples_split=2): self.max_depth = max_depth self.min_samples_split = min_samples_split def fit(self, X, y): self.n_features_ = X.shape[1] self.tree_ = self._grow_tree(X, y) def predict(self, X): return [self._predict(inputs) for inputs in X] def _best_split(self, X, y): m = y.size if m <= 1: return None, None num_parent = [np.sum(y == c) for c in range(self.n_classes_)] best_gini = 1.0 - sum((n / m) ** 2 for n in num_parent) best_idx, best_thr = None, None for idx in range(self.n_features_): thresholds, classes = zip(*sorted(zip(X[:, idx], y))) num_left = [0] * self.n_classes_ num_right = num_parent.copy() for i in range(1, m): c = classes[i - 1] num_left[c] += 1 num_right[c] -= 1 gini_left = 1.0 - sum( (num_left[x] / i) ** 2 for x in range(self.n_classes_) ) gini_right = 1.0 - sum( (num_right[x] / (m - i)) ** 2 for x in range(self.n_classes_) ) gini = (i * gini_left + (m - i) * gini_right) / m if thresholds[i] == thresholds[i - 1]: continue if gini < best_gini: best_gini = gini best_idx = idx best_thr = (thresholds[i] + thresholds[i - 1]) / 2 return best_idx, best_thr def _grow_tree(self, X, y, depth=0): num_samples_per_class = [np.sum(y == i) for i in range(self.n_classes_)] predicted_class = np.argmax(num_samples_per_class) node = Node( gini=1.0 - sum((np.sum(y == c) / y.size) ** 2 for c in range(self.n_classes_)), num_samples=y.size, num_samples_per_class=num_samples_per_class, predicted_class=predicted_class, ) if depth < self.max_depth and y.size >= self.min_samples_split: idx, thr = self._best_split(X, y) if idx is not None: indices_left = X[:, idx] < thr X_left, y_left = X[indices_left], y[indices_left] X_right, y_right = X[~indices_left], y[~indices_left] node.feature_index = idx node.threshold = thr node.left = self._grow_tree(X_left, y_left, depth + 1) node.right = self._grow_tree(X_right, y_right, depth + 1) return node def _predict(self, inputs): node = self.tree_ while node.left: if inputs[node.feature_index] < node.threshold: node = node.left else: node = node.right return node.predicted_class class Node: def __init__(self, *, gini, num_samples, num_samples_per_class, predicted_class): self.gini = gini self.num_samples = num_samples self.num_samples_per_class = num_samples_per_class self.predicted_class = predicted_class self.feature_index = 0 self.threshold = 0 self.left = None self.right = None ``` 这个代码实现了一个二叉决策树分类器,使用基尼不纯度作为分裂标准。您可以根据需要进行修改和扩展,例如使用其他不纯度度量或者实现回归决策树
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值