要点
简单的“如果-那么”规则来提炼信息是人类能够理解的一种方式。一个简单的避免可能的矛盾条件而导致的混乱的方法是用一个问题层级(最具信息量的放前面)来组织一系列问题结构,也就是决策树。
树可以通过贪心和递归方法学习,从完整的数据集开始,尝试寻找一个划分使得两个子集尽可能地纯净,然后在子集上重复这个过程。递归过程当剩余子集中足够纯能够用一个类别或者一个输出值概括时停止,这些子集成为树的叶节点。
充足的储存量和计算能力使得能够计算非常大量不同的树。它们能高产地作为决策森林来选取输出的均值(回归)或者投票(分类)使用。决策森林有众多优点:与所有的树一样,它们能自然地处理带有丢失信息的多分类问题,它们提供可能性的输出,概率和误差曲线,它们对先前未见的数据泛化能力强,且没有过度训练的风险,多亏并行化和每个数据点测试集的减少,它们还迅速高效。
一棵树投下一小块阴影,而成百上千棵树能够给焦灼的机器学习难题带来清凉。