一、决策树阐述、特性、优缺点:
1.阐述、特性:
决策树是一种基本的分类和回归算法,主要包含三个部分:特征选择、决策树的生成和剪枝。
首先,决策树的构成是由和边,结点包括内部结点和外部结点,内部结点表示特征,外部结点表示类别。
其次,决策树学习本质是从训练数据中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。另一个数学角度:由训练数据集估计条件概率,是一种判别式模型。
损失函数是正则化的极大似然函数。学习的策略是损失函数最小化。(NP难问题,通常采用启发式算法,SMO就是一个启发式算法,包括特、生、剪三个步骤)
最后,决策树算法思想是递归的选择最有特征,根据最优特征对数据进行分割,这一过程对应着决策树的构建和特征空间的划分。
决策树有可能产生过拟合,所以需要剪枝,减去过于细分的结点。
2、优缺点
优点:构造简单、判别速度快; 对数据不需要任何加工; 对于unbalance 的数据效果好。
缺点:泛化能力差,容易过拟合; 对新增的样本,需要调整整棵树的结构。
二、特征选择:
特征选择的准则是:信息增益或信息增益比,选择使信息增益最大的特征分割。