azkaban工作流调度器
1.解压 azkaban,server,executor
2.导入脚本,创建数据库表
3.创建秘钥,将秘钥放入server根目录
4,统一时区
5.配置azkaban.properties,配置user.xml
6.配置executor的azkaban.properties
7.启动web 服务器,启动执行服务器
8.https://主机名:8443
9.上传zip文件,执行
可以进行bash.hive,hdfs,操作
sqoop 数据迁移:
hadoop和关系型数据库之间的 数据传送
1.配置文件,加入jdbc j ar包
2.
$bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp \
--m 1 (导入数据的进程的并发数,默认是4)
--target-dir /home (指定位置)
导入到hive:(会自动生成hive元数据)
bin/sqoop import
--connect jdbc:mysql://hdp-node-01:3306/test
--username root
--password root
--table emp
--hive-import
--m 1
导入表数据子集:
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--where "city ='sec-bad'" \
--target-dir /wherequery \
--table emp_add --m 1
从hdfs中导出数据到mysql:
1.手动在mysql上建对应的表