用SQL的方式实现离线多数据源混合计算和互导!

data-hub是一个基于SparkSQL的工具,用于连接多种数据源并进行SQL计算,支持jdbc、hive、HBase、hdfs-file、local-file等数据源的读取和输出。它具备简单、强大的特性,可本地运行或在大数据集群中部署,且具备高度扩展性。通过简单的部署步骤,用户可以在MySQL数据库中创建必要表,打包项目,然后在指定目录执行jar包,实现数据的混合计算和导入。
摘要由CSDN通过智能技术生成

data-hub是什么?

data-hub是一个能接入多种数据源,使用SparkSQL作为通道,最终输出到多数据源的jar包,主要实现:多数据源数据使用SQL的方式进行计算,并将计算结果导入到多种数据源

特点:

  1. 简单 :按照下文方法简单调用即可使用,如果你有任务调度平台,使用起来同样简单
  2. 强大 :目前不仅支持在大数据集群中使用,还是支持本地运行,读取结构化数据时支持自定义换行符;目前支持的数据源:jdbc、hive、HBase、hdfs-file、local-file,输出数据源:jdbc、hive、HBASE、file;同时支持spark参数配置
  3. 高扩展 :输入数据源、输出数据源使用插件化代码,只需继承插件父类并实现对应方法即可,无需修改主流程

部署

data-hub的使用非常简单,有多简单呢?你只需要: 在执行之前你需要3个简单的步骤:

1、在MySQL数据库中执行ddl.sql文件中的语句,将该MySQL的域名或者ip地址配置到prod.properties文件中,在resources/docker目录下有docker安装数据库的命令,喜欢docker的同学可以尝试

2、打包项目成一个jar包:

mvn clean package -D maven.test.skip=true -P prod

3、将jar包、DATA_HUB.sh服务器的 /home/xxuser/xxx/ 目录下,如果是集群模式则需要放到spark的dr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值