用SQL的方式实现离线多数据源混合计算和互导！

最新推荐文章于 2024-03-19 16:17:22 发布

靠得住的风华飞雪

最新推荐文章于 2024-03-19 16:17:22 发布

阅读量254

点赞数

分类专栏：大数据文章标签： spark hbase hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Asher_k/article/details/118420467

版权

data-hub是一个基于SparkSQL的工具，用于连接多种数据源并进行SQL计算，支持jdbc、hive、HBase、hdfs-file、local-file等数据源的读取和输出。它具备简单、强大的特性，可本地运行或在大数据集群中部署，且具备高度扩展性。通过简单的部署步骤，用户可以在MySQL数据库中创建必要表，打包项目，然后在指定目录执行jar包，实现数据的混合计算和导入。

摘要由CSDN通过智能技术生成

data-hub是什么？

data-hub是一个能接入多种数据源，使用SparkSQL作为通道，最终输出到多数据源的jar包，主要实现：多数据源数据使用SQL的方式进行计算，并将计算结果导入到多种数据源

特点：

简单：按照下文方法简单调用即可使用，如果你有任务调度平台，使用起来同样简单
强大：目前不仅支持在大数据集群中使用，还是支持本地运行，读取结构化数据时支持自定义换行符；目前支持的数据源：jdbc、hive、HBase、hdfs-file、local-file，输出数据源：jdbc、hive、HBASE、file；同时支持spark参数配置
高扩展 ：输入数据源、输出数据源使用插件化代码，只需继承插件父类并实现对应方法即可，无需修改主流程

部署

data-hub的使用非常简单，有多简单呢？你只需要：在执行之前你需要3个简单的步骤：

1、在MySQL数据库中执行ddl.sql文件中的语句，将该MySQL的域名或者ip地址配置到prod.properties文件中，在resources/docker目录下有docker安装数据库的命令，喜欢docker的同学可以尝试

2、打包项目成一个jar包：

mvn clean package -D maven.test.skip=true -P prod

3、将jar包、DATA_HUB.sh服务器的 /home/xxuser/xxx/ 目录下，如果是集群模式则需要放到spark的dr

最低0.47元/天解锁文章

靠得住的风华飞雪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。