开源免费的数据迁移工具,
可以从RDBMS导入HDFS,
也可以从HDFS导出到RDBMS(这种场景现在spark什么的 需要写代码)。
Hive可以基于SQL读取HDFS、HBASE、MongoDB的数据,
Hive本质就是对已有数据源做一个包装
所以说你从Hive中迁移就等于从hdfs中迁移,hbase也是一样的道理。
sqoop用起来非常简单
把整个表迁移过来:
sqoop import
--connect jdbc:mysql://localhost/hr
--driver com.mysql.jdbc.Driver
--table user
--username root
--password 12345
--target-dir /data/user
--m 3
通过where过滤
你可以把这些命令写成shell script,然后通过Oozie或者crown来定时运行它。
实际工作都是定时自动进行的。