【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例(含数据集)

目录

决策分类树

2.1 ID3算法(信息增益)

2.2 C4.5 算法(信息增益率)

2.3 CART算法(Gini系数)

 CART构造决策树实例

决策树的剪枝

sklearn实现决策树

决策树的调参 

银行借贷欺诈检测案例

 训练模型

 调优及可视化

决策分类树

2.1 ID3算法(信息增益)

ID3是决策树学习算法中最具有影响和最为典型的算法,它的基本思想是,利用信息熵的原理,选择信息增益最大的属性作为分类属性。

ID3算法在分类时选择信息熵下降最快的类别作为分类依据

 entropy(P_{i}) =- \sum_{i = 1}^{n}P_{i}log_{2}P_{i}

 

2.2 C4.5 算法(信息增益率)

C4.5算法是ID3算法的拓展,它继承了ID3算法的优点并对ID3算法进行了改进和补充。

C4.5算法采用信息增益率作为选择分支属性的标准,克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足

  • 能够处理连续型的属性,将连续性属性离散化,将连续性属性的值分为不同区间,依据是比较各个分裂点Gian值的大小
  • 简单的忽略缺失数据,即在计算增益时,仅考虑具有属性值的记录

 

2.3 CART算法(Gini系数)

基尼指数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。这和信息增益(率)正好相反。

基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。因此基尼指数越小,则数据集纯度越高。基尼指数偏向于特征值较多的特征,类似信息增益。基尼指数可以用来度量任何不均匀分布,是介于 0~1 之间的数,0 是完全相等,1 是完全不相等。


Gini = 1-\sum_{i = 1}^{n}[P_{(i)}]^{2} = \sum_{i = 1}^{n}P_{i}(1-P_{i})

 CART算法处理分类问题时,以叶子节点上样本投票预测类别,处理回归问题时,以叶子节点的样本均值作为预测值

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值