分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据

实现原理:

客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。


步骤:

分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节点 ==> 
  在有关的库下创建hive的数据表 ==> 
加载数据到hive表中 ==>
启动hdfs(如果有数据存放在hadoop集群的数据节点) ==>
启动spark集群(建议启动模式:完全分布式)==> 
启动thriftserver服务器 ==>
运行java代码。


[centos&#
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值