sqoop 入门学习笔记

最新推荐文章于 2024-04-23 14:57:58 发布

专注代码七年

最新推荐文章于 2024-04-23 14:57:58 发布

阅读量155

点赞数

文章标签： sqoop 学习笔记

本文链接：https://blog.csdn.net/qq_35757427/article/details/134413942

版权

sqoop 简介

Sqoop是一个用于在Apache Hadoop和结构化数据存储之间进行数据传输的开源工具。它支持从关系型数据库中导入数据到Hadoop的分布式文件系统(HDFS)，或导出数据从HDFS到关系型数据库中。 Sqoop可以用于处理大量数据集，这些数据集包含结构化数据，如关系数据库，包括MySQL，PostgreSQL，Oracle等。 Sqoop使用MapReduce执行导入和导出数据的操作。 Sqoop从关系数据库导入数据时，还支持增量导入和并发导入。 Sqoop提供了一个命令行界面和一个Java API，以方便用户与Hadoop系统交互。

Sqoop（SQL-to-Hadoop）是一个用于在Hadoop和关系型数据库之间传输数据的工具。以下是Sqoop可以应用的场景：

数据仓库：Sqoop可用于从关系型数据库中抽取数据，并将其加载到Hadoop中进行分析。
数据迁移：可以使用Sqoop将数据从一个数据库迁移到另一个数据库。
数据备份和恢复：Sqoop可以用于从关系型数据库中备份数据并将其加载到Hadoop中进行存储，可以在需要时将其恢复到关系型数据库中。
数据集成：Sqoop可以用于将Hadoop和关系型数据库中的数据集成到一个单独的数据存储库中。
数据分析：Sqoop可以将关系型数据库中的数据加载到Hadoop中进行分析和挖掘。

总之，Sqoop可用于将关系型数据库和Hadoop之间的数据转移和集成，从而扩展数据分析的能力，提高数据处理的效率。

sqoop 常用语法

Sqoop是一个用于将关系型数据库中的数据传输到Hadoop的工具。以下是一些Sqoop常用的语法：

导入数据：

将数据从关系型数据库中导入到Hadoop集群中。

sqoop import --connect jdbc:mysql://hostname/database --username foo --password bar --table tablename --target-dir /path/to/target/directory

导出数据：

将Hadoop集群中的数据导出到关系型数据库中。

sqoop export --connect jdbc:mysql://hostname/database --username foo --password bar --table tablename --export-dir /path/to/export/directory

增量导入：

在上次导入的基础上增量导入数据。

sqoop import --connect jdbc:mysql://hostname/database --username foo --password bar --table tablename --target-dir /path/to/target/directory --incremental append --check-column id --last-value 100

自定义查询：

使用自定义查询来导入数据。

sqoop import --connect jdbc:mysql://hostname/database --username foo --password bar --query 'SELECT * FROM tablename WHERE id > 100' --target-dir /path/to/target/directory --split-by id

压缩数据：

将导入到Hadoop集群中的数据进行压缩。

sqoop import --connect jdbc:mysql://hostname/database --username foo --password bar --table tablename --target-dir /path/to/target/directory --compress --compression-codec org.apache.hadoop.io.compress.SnappyCodec

sqoop 实现读取es 导入 mysql

要使用Sqoop从 Elasticsearch 中读取数据并将其导入MySQL，您需要遵循以下步骤：

配置Elasticsearch连接器：您需要下载适用于Elasticsearch版本的Sqoop Connector Jar文件并将其添加到Sqoop的类路径中。然后，您需要构建一个包含Elasticsearch连接的sqoop命令，类似于以下示例：

sqoop import \
--connect jdbc:mysql://localhost/test \
--username root \
--password pwd \
--table mytable \
--split-by id \
--driver com.mysql.jdbc.Driver \
--query '{
 "query": {
     "bool": {
         "must": {
             "match_all": {}
         },
         "filter": {
             "range": {
                 "created_at": {
                     "gte": "2019-01-01",
                     "lte": "2020-01-01"
                 }
             }
         }
     }
 }
 }' \
--target-dir /tmp/sqoop \
--delete-target-dir \
--fields-terminated-by '\t'

在这个示例中，我们使用 query 参数从 Elasticsearch 中读取数据，并使用 mysql 连接器将数据导入到MySQL中的 mytable 表中。

指定Elasticsearch的URL：在Sqoop命令中，您需要指定Elasticsearch集群的URL地址和端口号。

sqoop import \
--connect jdbc:mysql://localhost/test \
--username root \
--password pwd \
--table mytable \
--split-by id \
--driver com.mysql.jdbc.Driver \
--query 'SELECT * FROM test.mytable WHERE id >= \'$CONDITIONS\' ' \
--target-dir /tmp/sqoop \
--delete-target-dir \
--fields-terminated-by '\t' \
--connect jdbc:elasticsearch://<host>:<port> \
--query '{
 "query": {
     "bool": {
         "must": {
             "match_all": {}
         },
         "filter": {
             "range": {
                 "created_at": {
                     "gte": "2019-01-01",
                     "lte": "2020-01-01"
                 }
             }
         }
     }
 }
 }'

在此示例中，我们指定了Elasticsearch集群的URL地址和端口号，并使用 query 参数从Elasticsearch中读取数据。

设置Elasticsearch查询：在Sqoop命令中，您可以使用 --query 参数指定Elasticsearch查询来读取数据。例如，使用以下示例查询：

{
 "query": {
     "bool": {
         "must": {
             "match_all": {}
         },
         "filter": {
             "range": {
                 "created_at": {
                     "gte": "2019-01-01",
                     "lte": "2020-01-01"
                 }
             }
         }
     }
 }
 }

该查询将返回 created_at 字段值在2019年1月1日和2020年1月1日之间的所有文档。

规定表中的主键：为了支持并行导入，Sqoop需要使用一个列作为主键来拆分输入数据。您可以使用 --split-by 参数指定表中的主键。
指定输出格式：在Sqoop命令中，您需要指定输出格式，以便Sqoop将数据正确地转换为适当的格式。
运行Sqoop命令：最后，您可以运行Sqoop命令以将Elasticsearch中的数据导入到MySQL中。

专注代码七年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sqoop 入门学习笔记

Sqoop是一个用于在Apache Hadoop和结构化数据存储之间进行数据传输的开源工具。它支持从关系型数据库中导入数据到Hadoop的分布式文件系统(HDFS)，或导出数据从HDFS到关系型数据库中。Sqoop可以用于处理大量数据集，这些数据集包含结构化数据，如关系数据库，包括MySQL，PostgreSQL，Oracle等。Sqoop使用MapReduce执行导入和导出数据的操作。Sqoop从关系数据库导入数据时，还支持增量导入和并发导入。
复制链接

扫一扫