(5)机器学习--分类模型之决策树算法

本文深入探讨了机器学习中的决策树算法,主要围绕分类模型展开,讲解了衡量指标如熵和信息增益,以及模型训练、评估过程。讨论了过拟合与欠拟合的定义、解决方法,精度与召回率的概念,并介绍了ROC曲线和AUC作为评估指标的重要性。同时,提到了modeler软件在决策树模型中的应用。
摘要由CSDN通过智能技术生成

回归:目标变量是数值型,得到方程式

分类:目标变量是分类值,可能是一个数,贝叶斯网络概率,神经网络,超平面函数

1理解模型

测量精度

基尼系数

1.1衡量指标

1.1.1熵

混杂样本中,熵是混乱程度的量度,样本集合纯度

 数据量⼀致时系统越有序,熵值越低;系统越混乱或者分散,熵值越⾼

决策树目的:找到一个特征值,对其进行分类,然后使得纯度更高

1.1.2信息增益

信息增益: 以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越⼤,样本的不确定性就越⼤。
因此可以 使⽤划分前后集合熵的差值来衡量使⽤当前特征对于样本集合 D 划分效果的好坏
信息增益 = entroy( ) - entroy( )

父集的熵减去子集熵值的加权和
例子:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值