如何用深度学习处理结构化数据？

最新推荐文章于 2024-07-10 14:21:13 发布

机器之心V

最新推荐文章于 2024-07-10 14:21:13 发布

阅读量4.5k

点赞数 1

文章标签：人工智能数据库 python

本文链接：https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/78794500

版权

本文介绍了如何使用深度学习处理结构化数据，强调了深度学习在处理结构化数据时的优势，如避免复杂的特征工程，并提供了实体嵌入技术来解决类别数据的处理问题。通过实例展示了如何在神经网络中学习和优化类别变量的嵌入向量，以及如何使用Fast.ai库简化这一过程。

摘要由CSDN通过智能技术生成

这篇博客主要关注的是深度学习领域一个并不非常广为人知的应用领域：结构化数据。本文作者为旧金山大学（USF）在读研究生 Kerem Turgutlu。

使用深度学习方法按照本文所介绍的步骤处理结构化数据有这样的好处：

快
无需领域知识
表现优良

在机器学习/深度学习或任何类型的预测建模任务中，都是先有数据然后再做算法/方法。这也是某些机器学习方法在解决某些特定任务之前需要做大量特征工程的主要原因，这些特定任务包括图像分类、NLP 和许多其它「非常规的」数据的处理——这些数据不能直接送入 logistic 回归模型或随机森林模型进行处理。相反，深度学习无需任何繁杂和耗时的特征工程也能在这些类型的任务取得良好的表现。大多数时候，这些特征需要领域知识、创造力和大量的试错。当然，领域专业知识和精巧的特征工程仍然非常有价值，但这篇文章将提及的技术足以让你在没有任何领域知识的前提下向 Kaggle 竞赛的前三名看齐，参阅：http://blog.kaggle.com/2016/01/22/rossmann-store-sales-winners-interview-3rd-place-cheng-gui/

图 1：一只萌狗和一只怒猫

由于特征生成（比如 CNN 的卷积层）的本质和能力很复杂，所以深度学习在各种各样的图像、文本和音频数据问题上得到了广泛的应用。这些问题无疑对人工智能的发展非常重要，而且这一领域的顶级研究者每年都在分类猫、狗和船等任务上你追我赶，每年的成绩也都优于前一年。但在实际行业应用方面我们却很少看到这种情况。这是为什么呢？公司企业的数据库涉及到结构化数据，这些才是塑造了我们的日常生活的领域。

首先，让我们先定义一下结构化数据。在结构化数据中，你可以将行看作是收集到的数据点或观察，将列看作是表示每个观察的单个属性的字段。比如说，来自在线零售商店的数据有表示客户交易事件的列和包含所买商品、数量、价格、时间戳等信息的列。

下面我们给出了一些卖家数据，行表示每个独立的销售事件，列中给出了这些销售事件的信息。

图 2：结构化数据的 pandas dataframe 示例

接下来我们谈谈如何将神经网络用于结构化数据任务。实际上，在理论层面上，创建带有任何所需架构的全连接网络都很简单，然后使用「列」作为输入即可。在损失函数经历过一些点积和反向传播之后，我们将得到一个训练好的网络，然后就可以进行预测了。

尽管看起来非常简单直接，但在处理结构化数据时，人们往往更偏爱基于树的方法，而不是神经网络。原因为何？这可以从算法的角度理解——算法究竟是如何对待和处理我们的数据的。

人们对结构化数据和非结构化数据的处理方式是不同的。非结构化数据虽然是「非常规的」，但我们通常处理的是单位量的单个实体，比如像素、体素、音频频率、雷达反向散射、传感器测量结果等等。而对于结构化数据，我们往往需要处理多种不同的数据类型；这些数据类型分为两大类：数值数据和类别数据。类别数据需要在训练之前进行预处理，因为包含神经网络在内的大多数算法都还不能直接处理它们。

编码变量有很多可选的方法，比如标签/数值编码和 one-hot 编码。但在内存方面和类别层次的真实表示方面，这些技术还存在问题。内存方面的问题可能更为显著，我们通过一个例子来说明一下。

假设我们列中的信息是一个星期中的某一天。如果我们使用 one-hot 或任意标签编码这个变量，那么我们就要假设各个层次之间都分别有相等和任意的距离/差别。