集成学习
集成学习方法结合了多个模型的分类结果,其性能往往比单个模型的性能要更好。
集成学习的方法:
(1)Boosting(Adaboost / Gbdt) : 第一轮随机从训练集中抽取一部分数据,对model1进行训练,然后使用 model1对整个训练集进行训练。第二轮,分类错误的数据,更容易进入到抽取的数据中,再利用这些数据对 model2进行训练。然后使用model2,对整个训练集进行训练。如此重复m次,使用了m个模型。Boosting模型可以 很好地对分类错误的数据,进行学习。
(2)Bagging (Random Forest) :每次随机从训练集中,有放回地随机抽取一部分数据,重复k次,得 到k份数据。然后使用k个模型,对这些数据进行单独学习。
决策树(decision tree)