注:以下资料参考迪伦老师整理
一 sqoop是什么?
Sqoop是一款开源的工具,Sqoop 即 SQL to Hadoop ,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,发展至今主要演化了二大版本,Sqoop1和Sqoop2。
二 为什么选择Sqoop?
1,高效可控的利用资源,可以指定任务并行度,指定超时时间;
2,数据类型映射与转化,可自动进行,用户也可自定义;
3,支持多种主流数据库,MySQL,Oracle,SQL Server,DB2等。
三 Sqoop1和Sqoop2区别
1,两个不同的版本,完全不兼容;
2,版本号划分区别 Apache:1.4.x,1.99.x
CDH: sqoop-1.4.3-cdh4,sqoop2-1.99.2-cdh4.5.0
3,sqoop2比sqoop1的改进
4,sqoop2和sqoop1架构比较
5 sqoop1与sqoop2的优缺点
sqoop1优点:架构部署简单。
sqoop2优点:多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。
sqoop1缺点:命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏;
安装需要root权限,connector必须符合JDBC模型。
sqoop2缺点:架构稍复杂,配置部署更繁琐。
稍后将记录Sqoop2的安装和使用!