知识体系_数据分析挖掘_04_机器学习算法_分类

一、决策树

决策树是一种基于特征判断类别的树结构,可以表示为if...else...then的形式,也可以表示为在特征空间下的类别空间的条件概率。

常见决策树算法有:ID3、C4.5/C5.0、CART

决策树训练过程:分裂特征选择、树的生成、树的剪枝

分裂特征选择:

信息增益:

信息增益比:

基尼指数:

算法适用场景数据要求过程1:分类特征选择过程2:树的生成过程3:树的剪枝优缺点特征使用次数
ID3分类分类型变量信息增益多叉树没有剪枝

1.使用信息增益容易倾向于选择取值多的特征,如ID等

2.没有考虑缺失值

因为是多叉树最多使用一次
C4.5分类分类型、数值型变量信息增益率多叉树悲观剪枝(后剪枝)1.计算时间长因为是多叉树最多使用一次(连续型特征也只会用一次)
CART分类、回归分类型、数值型变量基尼指数二叉树代价复杂度减枝因为是二叉树可能使用多次

实战案例:

二、逻辑回归

三、K近邻(KNN)

四、朴素贝叶斯

五、支持向量机(SVM)

六、集成学习算法

七、分类模型常见问题及解决方法

7.1 样本不平衡

7.2 缺失值

7.3 特征类型

八、分类模型评估

8.1 二分类

8.2 多分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值