机器学习算法:决策树

最新推荐文章于 2024-05-22 14:01:01 发布

listarya

最新推荐文章于 2024-05-22 14:01:01 发布

阅读量219

点赞数

文章标签：机器学习人工智能决策树

本文链接：https://blog.csdn.net/qq_41453065/article/details/99671466

版权

本文详细介绍了决策树的学习过程，包括初始化、特征选择、树的生成与剪枝。特征选择常用信息增益、信息增益比和基尼指数等准则。决策树算法如ID3、C4.5和CART被广泛使用。通过train_test_split进行数据集划分，然后创建并训练决策树分类器。决策树模型因其可读性和快速分类能力而受青睐，但面临连续性字段预测困难、时间序列数据处理复杂及类别过多可能导致错误增多等问题。

摘要由CSDN通过智能技术生成

决策树

适用问题：多类分类，回归
模型类型：判别模型
模型特点：分类树、回归树
学习策略：正则化的极大似然估计
学习的损失函数：对数似然损失
学习算法：特征选择 树的生成 树的剪枝

总结：
1.分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。
2.决策树学习旨在构建一个与训练数据策树是NP报合用好并且复杂度小的决复NP完全问题.现实中采用自
发式方法学习次优的决策树。
决策树学习算法包括三部分：特征选择、树的生成和树的剪枝，常用的算法有ID3、C4.5 和CART.
3.特征选择的目的在于选取对训练数据能够分类的特征.二战选择的关键是其准则。常用的准则如下:
(1)样本集合D对特征A的信息增益(ID3)

其中，H(D) 是数据集D的熵，H(D)是数据集D的熵，H(D|A)是数据集D对特征A的条件熵。D是D中特征A取第i个值的样本子集，C是D中属于第k类的样本子集。n是特征A取值的个数，K是类的个数.
(2)样本集合D对特征A的信息增益比(C4.5)

其中，g(D.A)是信息增益，H,(D)是 D.关于特征的值的熵。
(3)样本集合D的基尼指数(CART)

4.决策树的生成。通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则.决策树的生成往往通过计算信息增益或其他指标，从根结点开始，递归地产生决策树.这相当于用信息增益或其他准则不断地选取局部最优的特征，或将训练集分割为能够基本正确分类的子集，
5.决策树的剪枝，由于生成的决策树存在过拟合问题，需要对它进行剪枝，以简化学到的决策树，决策树的剪枝，往往从已生成的树上剪掉些叶结点或叶结点以上的子树，并将其父结点或根结点作为新的叶结点，从而简化生成的决策树.

一、决策树（例5.2）
1.定义：对实例进行分类的树形结构，由决策树和有向边组成。分类时，从根节点开始，对实例的某一节点进行测试，根据测试结果将实例分配到子节点如此递归的将实例来进行测试并分配，直至达到叶节点。
2.步骤：
特征选择 ——判断标准
决策树的生成 ——自然景观
决策树的修剪 ——人工花园
3.优缺点：
优点：
模型具有可读性、分类速度快、可以处理连续和种类字段
缺点：
对连续性的字段比较难预测。
对有时间顺序的数据，需要很多预处理的工作。
当类别太多时，错误可能就会增加的比较快。
一般的算法分类的时候，只是根据一个