“随机森林”在生物信息学方面的应用
简介
随机森林是一种基于决策树的机器学习算法,可以用于样本分类或回归任务,属于非线性分类器。因此它可以挖掘变量之间复杂的非线性的相互依赖关系。通过随机森林分析,可以找出区分两组样本间差异的关键成分。
基础知识
1. 集成学习(ensemble learning)
通过建立多个模型组合来解决单一预测问题。工作原理是生成多个学习器模型,各自独立地学习和做出预测,最后将这些预测结合成单预测。
根据个体学习器的生成方式,集成学习可以分为两大类:
- 个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表是Boosting
- 个体学习器间不存在强依赖关系,可同时生成的并行化方法,代表是Bagging和随机森林
2.Bagging
Bootstrap sampling:自助采样法,就是随机有放回的抽取,有一部分样本会多次出现,另一部分样本不出现。初始数据集中约有1/3的样本未出现在采样数