- 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
熵:描述一个时间的不确定性
联合熵:A与B同时发生的信息熵
条件熵:在A发生的情况下B发生的信息熵
信息增益:Gain为A为特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给
定条件下D的经验条件熵H(D|A)之差
基尼不纯度:基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
ID3和C4.5算法均只适合在小规模数据集上使用
ID3和C4.5算法都是单变量决策树
当属性值取值比较多的时候,最好考虑C4.5算法,ID3得出的效果会比较差 - 回归树原理
在回归树中,叶子节点的预测值一般为叶子节点中所有值的均值来作为当前叶子
节点的预测值。所以在回归树中一般采用MSE作为树的评价指标,即均方差 - 决策树防止过拟合手段
剪枝 - 模型评估
回归参照线性回归评价指标,分类参照Logistic评价指标 - sklearn参数详解,Python绘制决策树
DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)[source]
初级任务三 决策树算法梳理
最新推荐文章于 2021-05-16 18:35:52 发布