决策树基本思想

决策树是基本的机器学习分类算法,它的输入是一组带标签的数据,输出是一颗决策树,树的非叶结点代表判断逻辑,叶子结点代表分类子集。

决策树算法原理是通过训练数据形成if-then的判断结构。从树的根节点到叶节点的每一条路径构成一个判断规则。我们需要选择合适的特征作为判断节点,可以快速的分类,减少决策树的深度。最理想的情况是,通过特征的选择把不同类别的数据集贴上对应类标签,树的叶子节点代表一个集合,集合中数据类别差异越小,其数据纯度越高。

  • 输入:训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x 3 , y 3 ) } D=\{(x_1,y_1), (x_2, y_2),...,(x_3,y_3)\} D={(x1,y1),(x2,y2),...,(x3,y3)},属性集 A = { a 1 , a 2 , . . . , a n } A=\{a_1,a_2,...,a_n\} A={a1,a2,...,an}
    过程:抽象为函数TreeGenerate(D,A)
    注:最优划分属性即为能把最多结点分为一类的属性
1. 生成根结点node
2. if D中样本全部属于某一类C,then
3.    标记根节点为C类叶子结点;return
4. endif
5. if A = 空集 or D样本在A上取值相同  then
6. 	标记根结点为D中样本数最多的结点;return
7. endif
8. 从A中选取最优划分属性a*
9. for a*的每一个值a*v do
10.	    为node生成一个分支Dv,表示D中在a上取值为a*v的所有的样本的子集
11. 	if Dv为空 then
12.			将分支结点标记为叶子结点,其类别标记为D中样本最多的类;return
13.		else 
14.			以TreeGenerate(Dv,  A\{a*})为分支结点递归
15.	 

输出:以node为根节点一个一颗决策树

决策树的生成是一个递归过程,有三种情形会导致递归返回:

  1. 当前结点的样本完全属于同一类别(无需划分)
  2. 当前划分时的属性集为空集,或者所有样本在所有属性上取值都相同(无法划分)
  3. 当前结点集合为空(不能划分)

参考文献

机器学习 - 周志华
分类算法 – 决策树ID3算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值