一、Ensemble learning
集成学习通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类系统。
集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
两种集成学习的算法:
•Boosting:每个模型相互独立,相互平行。然后对其预测结果进行平均或者多数表决的原则来决定集成评估器的结果
•Bagging:模型循序渐进,依次增强。基评估器是相关的,是按顺序一一构建的,其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测,从而构成一个强评估器。
二、Bootstrap Sampling
在现实任务中,个体学习器是为解决同一个问题训练出来的,它们之间是不可能完全独立的,虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能的具有较大的差异,由此我们引入了自助采样法(Bootstrap sampling)
- 在原有的样本中通过重抽样抽取一定数量(比如100)的新样本,重抽样(Re-sample)的意思就是有放回的抽取,即一个数据有可以被重复抽取超过一次。
- 基于产生的新样本,计算我们需要估计的统计量。
- 重复上述步骤n次(一般是n>1000次)
三、决策树
决策树算法相比于K-means等分类算法,优点在于能够理解数据中所蕴涵的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。
决策树主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,为我们总结出一系列决策规则,并用树状图来呈现这些决策规则。