随机森林

最新推荐文章于 2024-06-19 15:37:05 发布

可爱的仙贝

最新推荐文章于 2024-06-19 15:37:05 发布

阅读量333

点赞数

文章标签：决策树深度学习

本文链接：https://blog.csdn.net/qq_40341531/article/details/105166252

版权

本文仅为自己学习记录，若有侵权及时联系本人。

要说随机森林，必须先讲决策树。决策树是一种基本的分类器，一般是将特征分为两类（决策树也可以用来回归，不过本文中暂且不表）。构建好的决策树呈树形结构，可以认为是if-then规则的集合，主要优点是模型具有可读性，分类速度快。

假设要选择一个优秀的量化工具来帮助我们更好的炒股，怎么选呢？

第一步：看看工具提供的数据是不是非常全面，数据不全面就不用。

第二步：看看工具提供的API是不是好用，API不好用就不用。

第三步：看看工具的回测过程是不是靠谱，不靠谱的回测出来的策略也不敢用啊。

第四步：看看工具支不支持模拟交易，光回测只是能让你判断策略在历史上有用没有，正式运行前起码需要一个模拟盘吧。

在这里插入图片描述

1.数据的随机选取

首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。

如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；
在这里插入图片描述

2.待选特征的随机选取

与数据集的随机选取类似，随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

如果每个样本的特征维度为M，指定一个常数m<<M，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的；每棵树都尽最大程度的生长，并且没有剪枝过程。

在这里插入图片描述

两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力

随机森林分类效果（错误率）与两个因素有关：

 1、 森林中任意两棵树的相关性：相关性越大，错误率越大；

 2、 森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。

减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个参数。

要解决这个问题主要依据计算袋外错误率oob error（out-of-bag error）

可爱的仙贝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林

本文仅为自己学习记录，若有侵权及时联系本人。要说随机森林，必须先讲决策树。决策树是一种基本的分类器，一般是将特征分为两类（决策树也可以用来回归，不过本文中暂且不表）。构建好的决策树呈树形结构，可以认为是if-then规则的集合，主要优点是模型具有可读性，分类速度快。假设要选择一个优秀的量化工具来帮助我们更好的炒股，怎么选呢？第一步：看看工具提供的数据是不是非常全面，数据不全面就不用。第二步...
复制链接

扫一扫