随机森林作为一种集成学习方法,它是由一系列基学习器构成的,构成及学习器的方法就是通过随机化采样的方法,来构成不同泛化边界的基学习器,然后在通过简单的投票法来结合出最后的集成模型。
这种简单的模型,在UCI糖尿病数据集的实践中,性能的提高有限,于是,希望在已有模型的基础上做改进来改善模型,以下是改善模型的几点想法
- 首先通过随机化方法来引入误差,构成的基学习器,在训练集上的性能参差不齐,我们通过AUC的指标值来选取性能较优的基学习器。但是如果这些基学习器是一些相同的相近的学习器,就不能通过集成来提高性能,实际上由于引入了随机化误差,就算AUC的值相近,基学习器依然有很大的相异性,在实践中,对模型性能有提高。
- 其次,增加基学习器之间的多样性,我们希望找到一定的量化指标,来表明这些多样性。现有的两个多样性的方向,有行为多样性即在训练集上两个基学习器上的表现,这个表现在一定程度上表征出基学习器的泛化边界,但是训练集依旧是小样本,无法完全表征泛化边界。还有就是结构多样性,同样这个指标也是用来表征泛化边界的。
- 对于,通过泛化性能表现,来选择基学习器,来改善模型,还没有在自己的实践中通过验证。
参考论文:
- How to compare and interpret two learnt Decision Trees from the same Domain?
Petra Perner
Institute of Computer Vision and Applied Computer Sciences, IBaI
Postbox 30 11 14, 04251 Leipzig - Structural Diversity for Decision Tree Ensemble Learning
Tao SUN, Zhi-Hua ZHOU
National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China - 王日升,谢红薇,安建成.基于分类精度和相关性的随机森林算法改进[J].科学技术与工程,2017,17(20):67-72.