如何将传统关系数据库的数据导入Hadoop？

最新推荐文章于 2021-09-25 12:09:47 发布

首席数据师

最新推荐文章于 2021-09-25 12:09:47 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/D55dffdh/article/details/83110822

版权

本文介绍了如何使用Sqoop将关系数据库的数据导入到Hadoop集群，包括从MySQL导入数据的实践，讨论了Sqoop的工作原理，如连接器类型、数据格式、导入策略和增量导入。Sqoop可以将数据写入HDFS、Hive和HBase，同时支持从Hadoop输出到关系数据库。文章还涵盖了数据拆分、密码保护、增量导入、Hive导入以及连续执行的Oozie集成。

摘要由CSDN通过智能技术生成

大多数企业的关键数据存在于OLTP数据库中，存储在这些数据库中的数据包含有关用户，产品和其他有用信息。如果要分析此数据，传统方法是定期将该数据复制到OLAP数据仓库中。Hadoop已经出现在这个领域并扮演了两个角色：数据仓库的替代品；结构化、非结构化数据和数据仓库之间的桥梁。图5.8显示了第一个角色，其中Hadoop在将数据导到OLAP系统(BI应用程序的常用平台)之前用作大规模加入和聚合工具。

图5.8 使用Hadoop进行OLAP数据输入输出和处理

以Facebook为例，该企业已成功利用Hadoop和Hive作为OLAP平台来处理数PB数据。图5.9显示了类似于Facebook的架构。该体系结构还包括OLTP系统的反馈循环，可用于推送在Hadoop中发现的洞察，例如为用户提供建议。

在任一使用模型中，我们都需要一种将关系数据引入Hadoop的方法，还需要将其输出到关系数据库中。本节，我们将使用Sqoop简化将关系数据输出到Hadoop的过程。

实践：使用Sqoop从MySQL导入数据

Sqoop是一个可用于将关系数据输入和输出Hadoop的项目。它是一个很好的高级工具，封装了与关系数据移动到Hadoop相关的逻辑，我们需要做的就是为Sqoop提供确定输出哪些数据的SQL查询。该技术提供了有关如何使用Sqoop将MySQL中的某些数据移动到HDFS的详细信息。

图5.9 使用Hadoop进行OLAP并反馈到OLTP系统

本节使用Sqoop 1.4.4版本，此技术中使用的代码和脚本可能无法与其他版本的Sqoop一起使用，尤其是Sqoop 2，它是作为Web应用程序实现的。

问题

将关系数据加载到集群中，并确保写入有效且幂等。

解决方案

在这种技术中，我们将看到如何使用Sqoop作为将关系数据引入Hadoop集群的简单机制。我们会介绍将数据从MySQL导入Sqoop的过程，还将介绍使用快速连接器的批量导入(连接器是提供数据库读写访问的特定于数据库的组件)。

讨论

Sqoop是一个关系数据库输入和输出系统，由Cloudera创建，目前是Apache项目。

执行导入时，Sqoop可以写入HDFS、Hive和HBase，对于输出，它可以执行相反操作。导入分为两部分：连接到数据源以收集统计信息，然后触发执行实际导入的MapReduce作业。图5.10显示了这些步骤。

图5.10 Sqoop导入：连接到数据源并使用MapReduce

Sqoop有连接器的概念，它包含读写外部系统所需的专用逻辑。Sqoop提供两类连接器：用于常规读取和写入的通用连接器，以及使用数据库专有批处理机制进行高效导入的快速连接器。图5.11显示了这两类连接器及其支持的数据库。

图5.11用于读写外部系统的Sqoop连接器

在继续之前，我们需要访问MySQL数据库，并且MySQL JDBC JAR需要可用。以下脚本将创建必要的MySQL用户和模式并加载数据。该脚本创建了一个hip_sqoop_user MySQL用户，并创建了包含三个表的sqoop_test数据库：stocks，stocks_export和stocks_staging。然后，它将stock样本数据加载到表中。所有这些步骤都通过运行以下命令来执行：