data-hub是什么?
data-hub是一个能接入多种数据源,使用SparkSQL作为通道,最终输出到多数据源的jar包,主要实现:多数据源数据使用SQL的方式进行计算,并将计算结果导入到多种数据源
特点:
- 简单 :按照下文方法简单调用即可使用,如果你有任务调度平台,使用起来同样简单
- 强大 :目前不仅支持在大数据集群中使用,还是支持本地运行,读取结构化数据时支持自定义换行符;目前支持的数据源:jdbc、hive、HBase、hdfs-file、local-file,输出数据源:jdbc、hive、HBASE、file;同时支持spark参数配置
- 高扩展 :输入数据源、输出数据源使用插件化代码,只需继承插件父类并实现对应方法即可,无需修改主流程
部署
data-hub的使用非常简单,有多简单呢?你只需要: 在执行之前你需要3个简单的步骤:
1、在MySQL数据库中执行ddl.sql文件中的语句,将该MySQL的域名或者ip地址配置到prod.properties文件中,在resources/docker目录下有docker安装数据库的命令,喜欢docker的同学可以尝试
2、打包项目成一个jar包:
mvn clean package -D maven.test.skip=true -P prod
3、将jar包、DATA_HUB.sh服务器的 /home/xxuser/xxx/ 目录下,如果是集群模式则需要放到spark的dr