1. 介绍
- 定义:Random Forest可以视为若干棵Decision Tree的Ensemble集成。
- 好处:随机森林比一般的决策树,具有更小的方差和variance,是目前应用最广法、且分类效果最好的一种机器学习算法。
2. 步骤
原始dataset的info:
- N = 3000,3000只股票;
- M = 8,包括high,low,close,open,volome,MA10,MA20,RSI这8个特征features
- 分类预测:次日股价状态 Up,down,Flat
1)构建一个规模为 n 的bootstrap样本 (n < N)
就是resample重抽样,若bootstrap规模n = 100,那么就是从3000只股票里随机抽出100只股票,构成一个新样本
2)基于这个bootstrap样本生长一棵决策树 (m < M)
以这100个观测值的样本作为input,且从8个features中随机挑选出m个样本,若m = 3,那么就是随机选出三个feature来生长树,比如这一轮选中的三个特征可能是high、open、RSI,这样生长出来第一棵决策树 Tree 1
3)重复以上