初级任务三决策树算法梳理

最新推荐文章于 2021-05-16 18:35:52 发布

20斤

最新推荐文章于 2021-05-16 18:35:52 发布

阅读量270

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/redavid/article/details/88095421

版权

7 篇文章 0 订阅

订阅专栏

信息论基础（熵联合熵条件熵信息增益基尼不纯度）
熵：描述一个时间的不确定性
联合熵：A与B同时发生的信息熵
条件熵：在A发生的情况下B发生的信息熵
信息增益：Gain为A为特征对训练数据集D的信息增益，它为集合D的经验熵H(D)与特征A给
定条件下D的经验条件熵H(D|A)之差
基尼不纯度：基尼不纯度,是指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率
2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
ID3和C4.5算法均只适合在小规模数据集上使用
ID3和C4.5算法都是单变量决策树
当属性值取值比较多的时候，最好考虑C4.5算法，ID3得出的效果会比较差
回归树原理
在回归树中，叶子节点的预测值一般为叶子节点中所有值的均值来作为当前叶子
节点的预测值。所以在回归树中一般采用MSE作为树的评价指标，即均方差
决策树防止过拟合手段
剪枝
模型评估
回归参照线性回归评价指标，分类参照Logistic评价指标
sklearn参数详解，Python绘制决策树
DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)[source]

关注