写在前面的话
上一篇博文讲过了决策树啦,正好给这一篇的随机森林做铺垫(讲真,我是想先讲随机森林的,无奈随机森林的基础是决策树,因此只能先决策树知识来一波)。至于我为啥这么稀罕随机森林呢,是因为从进科研室的时候起,我就对随机森林这个名字产生了特殊的兴趣,因为一听这个名字,你会不由得想到一片绿油油的森林。但是,它明明是个模型的嘛。内心很纠结,就小小的学习了下其中的原理,嘿,原理倒不难理解,但是功能却很强大。所以呀,要好好说说它。
决策树与随机森林
前面讲过决策树,而在随机森林这里不用过多的纠结决策树的原理,在这里只要把它想象成两种树好啦,一种是回归树,一种是分类树。
随机森林的建立
那随机森林是怎样建立的呢?它的随机性体现在什么地方呢?
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支----集成算法。
具体来说,首先看随机森林的建立过程:
1、首先用N来表示原始训练集样本的个数(即样本数量),M来表示变量的数目(变量的个数)