《数据挖掘概念与技术》第八章 分类:基本概念

本章深入探讨了数据挖掘中的分类方法,包括决策树分类中的信息增益、增益率和Gini指数,以及朴素贝叶斯分类中的后验概率和先验概率。还讨论了如何处理存在零概率值的情况,介绍了IF-THEN规则分类、模型评估的性能度量和提升模型准确度的策略,如类不平衡问题的解决方法。
摘要由CSDN通过智能技术生成

分类

本章中讲到了三种分类方法:

决策树分类

在决策树分类中详细介绍了三种决策树的属性选择度量:

信息增益

分区D为标记类元组的训练集。
D的熵,即所需要的期望信息为:
在这里插入图片描述

按某属性A划分D,则该期望值为:
在这里插入图片描述
属性A的信息增益值为:
在这里插入图片描述
ID3采用信息增益。
信息增益度量偏向于具有许多输出的测试,即偏向具有大量值的属性。

增益率

但若每个属性的元组个数为1,此时的信息增益无法对属性的划分提供有效信息。
以属性A划分D,划分点的值:
在这里插入图片描述
增益率:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值