机器学习基础DAY7

最新推荐文章于 2021-09-17 13:28:49 发布

Lin叮当

最新推荐文章于 2021-09-17 13:28:49 发布

阅读量128

点赞数

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/gtt683559/article/details/110957963

版权

机器学习基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第七章决策树与随机森林

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法
1.信息增益：
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：
在这里插入图片描述
注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
信息熵的计算：

条件熵的计算：

2.常见决策树使用的算法：
####ID3
信息增益最大的准则
####C4.5
信息增益比最大的准则
####CART
回归树: 平方误差最小
分类树: 基尼系数最小的准则在sklearn中可以选择划分的默认原则
######sklearn决策树API：
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
决策树分类器
criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子
method:
decision_path:返回决策树的路径

3.决策树的结构、本地保存
（1、sklearn.tree.export_graphviz() 该函数能够导出DOT格式
tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])
（2、工具:(能够将dot文件转换为pdf、png)
安装graphviz
ubuntu:sudo apt-get install graphviz Mac:brew install graphviz
（3、运行命令
然后我们运行这个命令
$ dot -Tpng tree.dot -o tree.png

4.决策树的优缺点以及改进
优点：
简单的理解和解释，树木可视化。
需要很少的数据准备，其他技术通常需要数据归一化，
缺点：
决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。
决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成
改进：
减枝cart算法

随机森林

定义：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

学习算法
根据下列算法而建造每棵树：
用N来表示训练用例（样本）的个数，M表示特征数目。
输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。
从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。

######随机森林API：
####class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’,
max_depth=None, bootstrap=True, random_state=None)
随机森林分类器
n_estimators：integer，optional（default = 10）森林里的树木数量
criteria：string，可选（default =“gini”）分割特征的测量方法
max_depth：integer或None，可选（默认=无）树的最大深度
bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样

优点：
在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
对于缺省值问题也能够获得很好得结果

Lin叮当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础DAY7

第七章决策树决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法1.信息增益：特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度信息熵的计算：条件熵的计算：######常见决策树使用的算法：####ID3信息增益最大的准则####C4.5信息增益比最大
复制链接

扫一扫