目录
备注:本文主要来自于对《深入浅出python机器学习》书籍的学习总结笔记,感兴趣的同学可以购买本书学习,学习的本质就是形成自己的逻辑。
1、决策树
1.1决策树的基本原理
决策树有分类树---对离散变量做的决策树,也有回归树---对连续变量做的决策树。
决策树的数学原理是信息熵,样本的具有一定的集中度(规律) 信息熵就小,样本都是随机的,信息熵就大。
决策树算法参数如下:
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
具体参数说明见:https://blog.csdn.net/linzhjbtx/article/details/85722187
1.2 决策树的优势和不足
(1)优势---它很容易就能将模型的决策机制可视化出来(使用graphviz工具),让非专业人士也能看明白;另外,它是对每个样本特征进行单独处理,因此不需要太多的数据预处理。
(2)不足---容易出现过拟合的的情况,为了避免这种不足,可以采用集合学习的方法,也就是将要介绍的随机森林算法。
2、随机森林
2.1随机森林的基本原理
随机森林是利用随机的方式将许多决策树组合成一个森林,每棵树的参数都不相同,然后在把每棵树预测的结果取平均值,这样即可以保留决策树们的工作成效,又可以降低过拟合的风险。它是一种结合算法,在机器学习中有很多集合算法。