决策树
决策树是一系列相关选择的可能结果的映射,,是一种非参数的监督学习方法,常用来进行分类和回归。它首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上,决策树是通过一系列规则对数据进行分类的过程。常用的决策树算法:ID3、C4.5和CART.
决策树通常从单个节点开始,到该节点分支可能的结果;每一个结果又会产生额外的节点,这些节点会延伸到其他的可能性中;如此下去直到叶子结点。
由上面两个例子可以看出,决策树主要由叶子节点和非叶子节点组成;非叶子节点主要是做决策选择的,叶子结点是决策的结果。
实现过程:
第一步,特征选择:如果特征数量很多,在决策树学习开始时对特征进行选择,只留下对训练数据有足够分类能力的特征
第二步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。
第