机器学习(2)———— 决策树

 

ID3 算法
其大致步骤为:
1. 初始化特征集合和数据集合;
2. 计算数据集合 信息熵 和所有特征的 条件熵 ,选择 信息增益 最大的特征作为当
前决策节点;
3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不
同分支的数据集合);
4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。
C4.5 算法
C4.5 算法是 Ross 对 ID3 算法的改进。
信息增益率 来选择属性。ID3选择属性用的是子树的信息增益,
而C4.5用的是 信息增益率
在决策树构造过程中进行 剪枝
非离散数据 也能处理。
能够对 不完整数据 进行处理。
CART
Classification and Regression Tree (CART) 是决策树的一种。
基尼指数 来选择属性(分类),或用 均方差 来选择属性(回归)。
顾名思义, CART 算法既可以用于创建分类树,也可以用于创建回归
树,两者在构建的过程中稍有差异。
如果目标变量是离散的,称为分类树。
如果目标变量是连续的,称为回归树。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
决策树算法是一种广泛应用于分类和回归的机器学习算法,它基于树形结构对样本进行分类或预测。决策树算法的主要思想是通过一系列的判断来对样本进行分类或预测。在决策树中,每个节点表示一个属性或特征,每个分支代表该属性或特征的一个取值,而每个叶子节点代表一个分类或预测结果。 决策树算法的训练过程主要包括以下步骤: 1. 特征选择:根据某种指标(如信息增益或基尼系数)选择最优的特征作为当前节点的分裂属性。 2. 决策树生成:根据选择的特征将数据集分成若干个子集,并递归地生成决策树。 3. 剪枝:通过剪枝操作来提高决策树的泛化性能。 决策树算法的优点包括易于理解和解释、计算复杂度较低、对缺失值不敏感等。但是,决策树算法也存在一些缺点,如容易出现过拟合、对离散数据敏感等。 下面是一个决策树算法的案例:假设我们要根据一个人的年龄、性别、教育程度和职业预测其收入水平(高于或低于50K)。首先,我们需要将这些特征进行编码,将其转换为数值型数据。然后,我们可以使用决策树算法对这些数据进行训练,并生成一个决策树模型。最后,我们可以使用该模型对新的数据进行分类或预测。例如,根据一个人的年龄、性别、教育程度和职业,我们可以使用决策树模型预测该人的收入水平。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值