Julia机器学习---- 决策树（决策树-CART、随机森林、回归随机森林）

最新推荐文章于 2023-02-09 04:28:03 发布

October-

最新推荐文章于 2023-02-09 04:28:03 发布

阅读量1.1k

点赞数 1

分类专栏： julia机器学习&科学计算文章标签： Julia 机器学习

本文链接：https://blog.csdn.net/weixin_41715077/article/details/107132359

版权

julia机器学习&科学计算专栏收录该内容

70 篇文章 28 订阅

订阅专栏

1、算法说明

决策树属于监督式机器学习，一般是通过训练带有标签的数据进行分类，然后来预测没有带有标签的数据属于那个类别。监督式学习问题可以进一步被分为回归和分类问题。决策树（这里作为一个大类）也包含分类（剪枝决策树分类器、随机森林）和回归（回归随机森林）。

1.1 实现原理

这里列举一些比较好的文章

决策树[1,2,3]

随机森林[1,2,3]

回归随机森林[1,2,3]

1.2 决策树量化纯度

决策树的构建是基于样本概率和纯度来进行的，判断数据集是否“纯”可以通过三个公式进行判断：Gini系数、熵(Entropy)、错误率。三个公式的值越大，表示数据越不纯。值越小，表示数据越纯。当计算出各个特征属性的量化纯度值后，使用信息增益度来选择出当前数据集的分割特征属性。如果信息增益度值越大，表示在该特征属性上会损失的纯度越大，那么该属性越应该在决策树的上层。下面是具体的公式

1.3 在使用决策树之前重点看下随机森林优缺点：

优点：

正如上文所述，随机森林算法能解决分类与回归两种类型的问题，并在这两个方面都有相当好的估计表现；
随机森林对于高维数据集的处理能力令人兴奋，它可以处理成千上万的输入变量，并确定最重要的变量，因此被认为是一个不错的降维方法。此外，该模型能够输出变量的重要性程度，这是一个非常便利的功能。
在对缺失数据进行估计时，随机森林是一个十分有效的方法。就算存在大量的数据缺失，随机森林也能较好地保持精确性；
当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法；
模型的上述性能可以被扩展运用到未标记的数据集中，用于引导无监督聚类、数据透视和异常检测；

缺点：

随机森林在解决回归问题时并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。
对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

几个注意的点

随机森林有2个参数需要人为控制，一个是森林中树的数量，一般建议取很大。另一个是m的大小，推荐m的值为M的均方根。
随机森林：之前的两个随机采样（行和列）的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。【单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，但是还是不够的。

通用的调参方法：

grid search 网格搜索。 sklearn 提供了相应的方GridSearchCV。即使用cross validation，对模型迭代的选用候选参数进行交叉验证，取结果最好的参数，优点：效果好，相当于穷举的思想，调参得到了候选参数里全局最优化结果。缺点：计算复杂。一般做竞赛的小项目选这个啦。
基于贪心的坐标下降搜索。即固定其他参数，把某个参数取得最好。这样迭代一遍得到最终结果。优点：计算量少，缺点：可能不是全局最优值、陷入局部最优解。
随机网格搜索：防止网格搜索间隔过大而跳过最优值，而随机可以相对单个参数取到更多的值。
n_estimators越多结果更稳定（方差越小），所以只要允许内，数目越大越好, 但计算量会大增。只有这个参数对结果的影响是越大越好，其他参数都是中间取得最优值。
“分裂条件”（criterion）对模型的准确度的影响也不一样，该参数需要在实际运用时灵活调整，可取gini或者信息增益比？。
每棵树最大特征数（max_features）一般用sqrt(总特征数)。
调整“最大叶节点数”（max_leaf_nodes）以及“最大树深度”（max_depth）之一，可以粗粒度地调整树的结构：叶节点越多或者树越深，意味着子模型的偏差越低，方差越高；同时，调整“分裂所需最小样本数”（min_samples_split）、“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重总值”（min_weight_fraction_leaf），可以更细粒度地调整树的结构：分裂所需样本数越少或者叶节点所需样本越少，也意味着子模型越复杂。

2 、Julia 代码实现

下面使用鸢尾花数据集，做预测分析，鸢尾花是带有标签的数据。从准确率来看，决策树CART算法的准确率更高一点。随机森林在一些低维且带有标签的数据上，表现确认不如存粹CART算法。

2.1 决策树使用示例（CART算法）

using MLBase
using DecisionTree
using RDatasets
using Distributions

features, labels = load_data("iris")
features = float.(features)
labels   = string.(labels)

# 训练并得到决策树分类器
model = build_tree(labels, features)
#  修剪树：合并纯度大于等于90%的叶子（默认值：100%）
model = prune_tree(model, 0.9)
# 打印树, 深度为5（可选）
print_tree(model, 5)

# 应用所学模型
apply_tree(model, [5.9,3.0,5.1,1.9])

# 推测所有节点
preds = apply_tree(model, features)

# 生成混淆矩阵，以及准确度和kappa分数
confusion_matrix(labels, preds)

# 得到每个标签的概率
apply_tree_proba(model, [5.9,3.0,5.1,1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])

# 对修剪过的树进行三次交叉验证
n_folds=3
accuracy = nfoldCV_tree(labels, features, n_folds)

####决策树算法的停止条件，就是一组分类参数和各自的默认值
# pruning_purity: 修剪纯度：用于修剪后的纯度阈值（默认值：1.0，不修剪）
# max_depth: 决策树的最大深度（默认值：-1，无最大值）
# min_samples_leaf: 每个叶子节点需要的最小采样数（默认值：1）
# min_samples_split: 拆分所需的最小采样数（默认值：2）
# min_purity_increase: 分割所需的最小纯度（默认值：0.0）
# n_subfeatures: 要随机选择的特征数（默认值：0，全部保留）

n_subfeatures=0;
max_depth=-1;
min_samples_leaf=1;
min_samples_split=2
min_purity_increase=0.0;
pruning_purity = 1.0

model    =   build_tree(labels, features,
                        n_subfeatures,
                        max_depth,
                        min_samples_leaf,
                        min_samples_split,
                        min_purity_increase)

accuracy = nfoldCV_tree(labels, features,
                        n_folds,
                        pruning_purity,
                        max_depth,
                        min_samples_leaf,
                        min_samples_split,
                        min_purity_increase)

print_tree(model, 5)

# 准确率
# 3-element Array{Float64,1}:
#  1.0
#  1.0
#  1.0

2.2 随机森林决策树

using MLBase
using DecisionTree
using RDatasets
using Distributions

features, labels = load_data("iris")
features = float.(features)
labels   = string.(labels)

# 训练随机森林分类器
# 使用2个随机特征，10棵树，每棵树使用一半的样本（0.5），最大树深6
model = build_forest(labels, features, 2, 10, 0.5, 6)
# 应用所学模型
apply_forest(model, [5.9,3.0,5.1,1.9])

# 适配每个标签的概率
apply_forest_proba(model, [5.9,3.0,5.1,1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])
# 对森林运行k 为3 的交叉验证，每个分割使用2个随机特征
n_folds=3; n_subfeatures=2
accuracy = nfoldCV_forest(labels, features, n_folds, n_subfeatures)

####决策树算法的停止条件，就是一组分类参数和各自的默认值
# n_subfeatures: 每次拆分要随机考虑的特征数（默认值：-1，sqrt（特征数量））
# n_trees:要训练的树的个数 (默认: 10)
# partial_sampling: 用于训练每棵树的样本占比（默认值：全部样本的0.7）
# max_depth: 决策树的最大深度 (默认没有最大值)
# min_samples_leaf: 每个叶子节点需要的最小样本数  (默认 5)
# min_samples_split:拆分所需的最小样本数(default: 2)
# min_purity_increase:分离所需的最低纯度 (默认 0.0)

n_subfeatures=-1
n_trees=10
partial_sampling=0.7
max_depth=-1
min_samples_leaf=5
min_samples_split=2
min_purity_increase=0.0

model    =   build_forest(labels, features,
                          n_subfeatures,
                          n_trees,
                          partial_sampling,
                          max_depth,
                          min_samples_leaf,
                          min_samples_split,
                          min_purity_increase)

accuracy = nfoldCV_forest(labels, features,
                          n_folds,
                          n_subfeatures,
                          n_trees,
                          partial_sampling,
                          max_depth,
                          min_samples_leaf,
                          min_samples_split,
                          min_purity_increase)
# 应用所学模型
apply_forest(model, [5.9,3.0,5.1,1.9])

# 适配每个标签的概率
apply_forest_proba(model, [5.9,3.0,5.1,1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])

# 准确率
# 3-element Array{Float64,1}:
#  0.92
#  1.0
#  0.98

2.3、自适应增强决策树分类

using MLBase
using DecisionTree
using RDatasets
using Distributions

features, labels = load_data("iris")
features = float.(features)
labels   = string.(labels)

# 训练自适应增强树，使用7次迭代
model, coeffs = build_adaboost_stumps(labels, features, 7);
# 应用模型
apply_adaboost_stumps(model, coeffs, [5.9,3.0,5.1,1.9])
# 适配每个标签的概率
apply_adaboost_stumps_proba(model, coeffs, [5.9,3.0,5.1,1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])
#  使用7次迭代，并对增强树进行3次交叉验证
n_iterations=7; n_folds=3
accuracy = nfoldCV_stumps(labels, features,
                          n_folds,
                          n_iterations)
#准确率
# 3-element Array{Float64,1}:
#  0.92
#  0.88
#  0.94

2.4、回归随机森林

using MLBase
using DecisionTree
using RDatasets
using Distributions

features, labels = load_data("iris")
features = float.(features)
labels   = string.(labels)

# 训练回归森林，使用2个随机特征，10棵树，
# 每个叶子节点 5个样本, 每棵树拥有全部样本的 0.7
model = build_forest(labels, features, 2, 10, 0.7, 5)
# 应用模型
apply_forest(model, [-0.9,3.0,5.1,1.9,0.0])
#  在回归森林上运行 k 为 3交叉验证，每个分割使用2个随机特征
n_subfeatures=2; n_folds=3
r2 = nfoldCV_forest(labels, features, n_folds, n_subfeatures)

####决策树算法的停止条件，就是一组分类参数和各自的默认值
# n_subfeatures: 每次拆分要随机考虑的特征数（默认值：-1，sqrt（特征数量））
# n_trees:要训练的树的个数 (默认: 10)
# partial_sampling: 用于训练每棵树的样本占比（默认值：全部样本的0.7）
# max_depth: 决策树的最大深度 (默认没有最大值)
# min_samples_leaf: 每个叶子节点需要的最小样本数  (默认 5)
# min_samples_split:拆分所需的最小样本数(default: 2)
# min_purity_increase:分离所需的最低纯度 (默认 0.0)

n_subfeatures=-1
n_trees=10
partial_sampling=0.7
max_depth=-1
min_samples_leaf=5
min_samples_split=2
min_purity_increase=0.0

model = build_forest(labels, features,
                     n_subfeatures,
                     n_trees,
                     partial_sampling,
                     max_depth,
                     min_samples_leaf,
                     min_samples_split,
                     min_purity_increase)

r2 =  nfoldCV_forest(labels, features,
                     n_folds,
                     n_subfeatures,
                     n_trees,
                     partial_sampling,
                     max_depth,
                     min_samples_leaf,
                     min_samples_split,
                     min_purity_increase)

# 准确率
# 3-element Array{Float64,1}:
#  0.94
#  1.0
#  0.96

October-

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
Julia机器学习---- 决策树（决策树-CART、随机森林、回归随机森林）

1、算法说明决策树属于监督式机器学习，一般是通过训练带有标签的数据进行分类，然后来预测没有带有标签的数据属于那个类别。监督式学习问题可以进一步被分为回归和分类问题。决策树（这里作为一个大类）也包含分类（剪枝决策树分类器、随机森林）和回归（回归随机森林）。1.1 实现原理这里列举一些比较好的文章决策树[1,2,3]随机森林[1,2,3]回归随机森林[1,2,3]1.2 在使用决策树之前重点看下随机森林优缺点：优点：正如上文所述，随机森林算法能解决分类与回归两种类型的问题，
复制链接

扫一扫