决策树概述
决策树是一种树状模型,常用于分类或回归。与其他分类方法,如逻辑回归,不同的是前者在建树的过程中首先选择对分类结果最有主导性的变量,而后者是对所有的已选特征进行权重的赋值,进而决定分类的结果。应用到选择结婚对象时,决策树的思考方式是,先看最关心的条件,如颜值高不高(或者其他),如果颜值高,则适合结婚,不高,则进一步考虑其他因素。而逻辑回归,则是同时对所有影响你决策结果的条件进行权重的匹配,最后的综合结果达到某一阈值时,才考虑可以结婚。
常见的决策树算法有ID3算法,C4.5算法,及CART决策树,主要差异体现在选取主导变量的标准不同。算法的总体步骤可以概括为建树和剪树。
在建树步骤中,首先选择最有解释性的变量,接着对每个变量选择最优的分割点进行建树。在剪树方法中,分为前剪枝和后剪枝。前剪枝的用于控制树的生成规模,后剪枝用于删除没有意义的分组。下面对前面提到的算法的建树原理进行描述。
决策树算法原理
ID3
讲述ID3算法原理的时候,要提到信息熵的概念。做为一个修过工程热力学的工科生来说,熵的概念并没有很陌生,但是和信息结合在一起的时候,就会赞叹,这都可以,科学真是令人着迷。
信息熵