重磅 | 周志华最新论文：首个基于决策树集成的自动编码器，表现优于DNN

最新推荐文章于 2022-10-08 10:51:58 发布

人工智能学家

最新推荐文章于 2022-10-08 10:51:58 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/cf2SudS8x8F0v/article/details/78138715

版权

来源： AI科技大本营

概要：深度神经网络需要花大力气调参，相比之下 gcForest 要容易训练得多。此外，深度神经网络需要大规模的训练数据，而 gcForest 在仅有小规模训练数据的情况下也照常运转。

今年 2 月，南京大学的周志华教授和他的学生 Ji Feng 提出了一种不同于深度神经网络（DNN）的 Deep Forest 模型——gcForest，这是一种决策树集成的方法，较之深度神经网络有很强的竞争力。深度神经网络需要花大力气调参，相比之下 gcForest 要容易训练得多。此外，深度神经网络需要大规模的训练数据，而 gcForest 在仅有小规模训练数据的情况下也照常运转。不仅如此，作为一种基于决策树的方法，gcForest 在理论分析方面也应当比深度神经网络更加容易。

半年之后，这两位学者又跟 DNN 杠上了，提出了首个基于决策树集成（Tree Ensamble）算法的自动编码器——EncoderForest （简称 eForest）。

通常，自动编码这个重要任务都是通过卷积神经网络（CNN）等深度神经网络（DNN）来实现的。但是周志华教授在论文中表示，他们提出的这种算法可以使森林（forests）能够利用决策树决策路径（decision paths）定义的等效类（equivalent classes）别来进行反向重构（backward reconstruction），并且证明了这种算法在监督学习和无监督学习中的可行性。

实验结果表明，与 DNN 自动编码器相比，eForest 能够不仅训练速度更快，而且数据重构的错误率根底，此外，模型本身对损坏有一定的容忍度，并且可以重复使用。

不管是 gcForest 还是 eForest，这种基于决策树集成的方法真的有取代 DNN 的潜力吗？让我们一起看看这篇论文，或许你会有更好的了解。（注：本文截取论文重点进行编译，非全文编译。如需观摩原文，请查阅文末链接）

简介

自动编码器这类模型的作用是将输入映射到隐藏空间，然后再将其映射到原始空间，期间，重构失误率越小越好。在过去，构建这样的模型往往需要用到神经网络。例如，基于神经网络的自动编码器通常由一个编码器和一个解码器构成。编码器将输入映射到隐藏层，然后解码器将输入映射到输入空间。通过将这两步连接在一起，并将重构错误作为学习目标，我们可以使用反向传播算法来训练此类模型。这种算法被广泛应用于降维、表征学习以及生成模型近期的一些工作（例如变分自动编码器）。

集成学习（Ensemble learning）是一种强大的学习方式，它可以训练多个学习网络，并将它们结合起来处理问题。它广泛应用于很多种任务，并且都有着很好的表现。决策树集成算法或者森林算法（如随机森林）是适用于监督学习的最好方法之一。其他成功的决策树集成算法还有基于梯度的决策树（gradient based decision trees ，GBDT），这种算法的效果在过去 10 年间得到了很好的证明。除了监督学习任务之外，决策树集成算法还在其他任务中大显身手，例如isolation forest，这是一种可以有效检测异常的无监督学习方法。另外，最近提出的基于森林的深度模型也在多种任务中表现出与 DNN 比肩的性能，但是它的超参数数量更少。

在本论文中，我们提出了 eForest，它可以使决策树集成算法执行向前编码和向后解码的操作，这种自动编码器既能以监督学习又可以以无监督学习的方式进行训练。实验证明，eForest 有以下优势：