《machine learning in action》机器学习算法学习笔记决策树模型

NONE-C

于 2021-12-31 22:09:57 发布

阅读量894

点赞数 1

分类专栏：学习笔记机器学习文章标签：决策树机器学习 python

本文链接：https://blog.csdn.net/m0_52186223/article/details/122262921

版权

重要任务：是为了理解数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，这些机器根据数据集创建规则的过程就是机器学习的过程。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。

范例：专家系统。

如何构造决策树：

利用信息论划分数据集，伪代码：

IF (整个数据集属于同一个类型) return 类标签
Else 
	寻找划分数据集的最好特征
	划分数据集
	创建分支节点
		for 每个划分的子集
			递归继续划分
		return 分支节点

划分数据集的大原则是：将无序的数据变得更加有序。

信息增益

定义：在划分数据集之前之后的信息发生的变化称为信息增益。

可以用于评价一次信息划分的优劣。

集合信息的度量方式称为：香农熵。

熵定义为信息的期望值。

如果待分类的事务可能划分在多个分类之中，则符号 $x_i$ 的信息定义为:
$l(x_i)=-log_2p(x_i)$
$p(x_i)$ 是选择该分类的概率。

根据期望的公式，得
$H=-\sum^n_{i=1}p(x_i)log_2p(x_i)$

关注