Sqoop介绍
Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制.
Hadoop 生态系统包括: HDFS、 Hive、 Hbase 等
RDBMS 体系包括: Mysql、 Oracle、 DB2 等
Sqoop 可以理解为: “SQL 到 Hadoop 和 Hadoop 到 SQL”
站在 Apache 立场看待数据流转问题, 可以分为数据的导入导出:
Import: 数据导入。 RDBMS----->Hadoop
Export: 数据导出。 Hadoop---->RDBMS
Sqoop 导入
导入语法:sqoop import (generic-args) (import-args)
全量导入从Mysql导入HDFS
bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \ -- 指定mysql 数据库
--username root \ -- mysql账户
--password hadoop \ -- mysql账户密码
--delete-target-dir \ -- 若目录已存在,删除目标目录
--target-dir /sqoopresult \ -- 指定上传hdfs目录
--table emp --导出userdb数据库中的emp表
增量导入</