一. 分析背景
要客观评价一个地区的环境质量状况, 需要综合考虑各种应诉之间以影响因素与环境质量之间错综复杂的关系. 采用传统的方法存在着一定局限性和不合理性. 因此, 从学术研究的角度对环境评价的技术方法及其理论进行探讨, 寻求更全面客观的新理论方法具有重要的现实意义.
本例通过建立决策树模型, 对数据中空气中相关气体的含量值与对应的空气等级进行分析, 实现对空气质量的评价.
二. 决策树
百度百科对于决策树的解释:
决策树是在已知各种情况发生概率的基础上, 通过构成决策树来求取净现值的期望值大于等于零的概率, 评价项目风险, 判断其可行性的决策分析方法, 是直观运用概率分析的一种图解法. 由于这种决策分支画成图形很像一棵树的枝干, 故称决策树. 机器学习中, 决策树是一个预测模型, 他代表的是对象属性与对象值之间的一种映射关系.
决策树的常见算法:
1. ID3
基于信息增益选择节点属性. 特点是方法简单, 但对噪声敏感, 且只能处理离散型的数据.
2. C4.5
基于ID3算法进行了改进, 相对ID3具有以下优点:
(1) 采用信息增益率
(2) 采用悲观剪枝
(3) 可离散化处理连续属性
(4) 可对缺失值进行处理
3. CART
英文全称 Classification and Regression Tree, 即分类回归树.
CART只支持二叉树, 既可作为