随机森林(决策树为基础)

最新推荐文章于 2022-08-21 00:05:28 发布

聆听我的召唤，菜鸟进化

最新推荐文章于 2022-08-21 00:05:28 发布

阅读量649

点赞数 1

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/qq_45889931/article/details/119858369

版权

随机森林是一种基于多个决策树的分类器，其优势包括高准确性、处理大量输入变量、评估变量重要性等。构建随机森林时涉及数据的随机选取和待选特征的随机选取，以增强多样性并提高分类性能。决策树是随机森林的基础，通过选取最佳特征对数据进行划分，常见的特征选择准则有ID3、C4.5和CART算法。

摘要由CSDN通过智能技术生成

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
优点
随机森林的优点有：
1）对于很多种资料，它可以产生高准确度的分类器；
2）它可以处理大量的输入变数；
3）它可以在决定类别时，评估变数的重要性；
4）在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计；
5）它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度；
6）它提供一个实验方法，可以去侦测variable interactions；
7）对于不平衡的分类资料集来说，它可以平衡误差；
8）它计算各例中的亲近度，对于数据挖掘、侦测离群点（outlier）和将资料视觉化非常有用；
9）使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料；
10）学习过程是很快速的。

决策树构建
要说随机森林，必须先讲决策树。决策树是一种基本的分类器，一般是将特征分为两类（决策树也可以用来回归，不过本文中暂且不表）。构建好的决策树呈树形结构，可以认为是if-then规则的集合，主要优点是模型具有可读性，分类速度快。
我们用选择量化工具的过程形象的展示一下决策树的构建。假设要选择一个优秀的量化工具来帮助我们更好的炒股，怎么选呢？
第一步：看看工具提供的数据是不是非常全面，数据不全面就不用。
第二步：看看工具提供的API是不是好用，API不好用就不用。
第三步：看看工具的回测过程是不是靠谱，不靠谱的回测出来的策略也不敢用啊。
第四步：看看工具支不支持模拟交易，光回测只是能让你判断策略在历史上有用没有，正式运行前起码需要一个模拟盘吧。
这样，通过将“数据是否全面”，“API是否易用”，“回测是否靠谱”，“是否支持模拟交易”将市场上的量化工具贴上两个标签，“使用”和“不使用”。
上面就是一个决策树的构建，逻辑可以用图1表示：
在这里插入图片描述
在图1中，绿颜色框中的“数据”“API”“回测”“模拟交易”就是这个决策树中的特征。如果特征的顺序不同，同样的数据集构建出的决策树也可能不同。特征的顺序分别是“数据”“API”“回测”“模拟交易”。如果我们选取特征的顺序分别是“数据”“模拟交易”“API”“回测”，那么构建的决策树就完全不同了。
可以看到，决策树的主要工作，就是选取特征对数据集进行划分，最后把数据贴上两类不同的标签。如何选取最好的特征呢？还用上面选择量化工具的例子：假设市场上有100个量化工