Sqoop导入导出模板(点击了解更多)Sqoop 导入导出操作,从 mysq 导入数据到 hive,从 hive 导出数据到 mysqlhttps://blog.csdn.net/qq_17685725/article/details/122904237
1、sqoop简介
Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具。Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是 inputformat 和 outputformat 进行定制。
- Hadoop 生态系统包括:HDFS、Hive、Hbase 等
- RDBMS 体系包括:Mysql、Oracle、DB2 等
- Sqoop 可以理解为:“SQL 到 Hadoop 和 Hadoop 到 SQL”
站在 Apache 立场看待数据流转问题,可以分为数据的导入导出:
- import:数据导入(RDBMS 到 Hadoop)
- export:数据导出(Hadoop 到 RDBMS)
2、Sqoop安装
注:安装 sqoop 的前提是已经具备 java 和 hadoop 的环境:
2.1 下载sqoop安装包:
http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.14.0.tar.gz
2.2 将安装包上传到 linux 中, 并解压(建议放置在 hive 和 hadoop 同服务器的路径下):
tar -zxvf /export/software/sqoop-1.4.6-cdh5.14.0.tar.gz -C /export/server/
- 2.2.1 创建软连接
ln -s /export/server/sqoop-1.4.6-cdh5.14.0/ /export/server/sqoop
- 2.2.2 配置环境变量