分布式sparkSQL引擎应用：从远程通过thriftServer连接spark集群处理hive中的数据

最新推荐文章于 2024-06-19 11:18:27 发布

宝罗Paul

最新推荐文章于 2024-06-19 11:18:27 发布

阅读量3.5k

点赞数 1

分类专栏： scala & spark 大数据 JAVA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31598113/article/details/71080649

版权

实现原理：

客户端(java程序)与thriftServer连接，thriftServer再代理客户端转换成spark的操作流程，再加载hive的数据到spark的worker节点，并运行Map-Reduce作业。这里只是个小案例，和大家一起来探讨一下原理。

步骤：

分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节点 ==>
在有关的库下创建hive的数据表 ==>
加载数据到hive表中 ==>
启动hdfs(如果有数据存放在hadoop集群的数据节点) ==>
启动spark集群（建议启动模式：完全分布式）==>
启动thriftserver服务器 ==>
运行java代码。

[centos&#

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分布式sparkSQL引擎应用：从远程通过thriftServer连接spark集群处理hive中的数据

实现原理：客户端(java程序)与thriftServer连接，thriftServer再代理客户端转换成spark的操作流程，再加载hive的数据到spark的worker节点，并运行Map-Reduce作业。这里只是个小案例，和大家一起来探讨一下原理。步骤：分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节
复制链接

扫一扫

专栏目录

宝罗Paul CSDN认证博客专家 CSDN认证企业博客

码龄9年

94: 原创

18万+: 周排名

135万+: 总排名

56万+: 访问

: 等级

4984: 积分

95: 粉丝

216: 获赞

83: 评论

507: 收藏

私信

关注

热门文章

分类专栏

JAVA 16篇
大数据 55篇
scala & spark 8篇
python 14篇
shell脚本 7篇

最新评论

Hbase在hdfs上的archive目录占用空间过大
刚果001: list_snapshot显示为空，即没有快照，为什么archive目录也很大？怎么解决呢
shell脚本——如何获取函数的返回值
ArchyZhao: echo命令带换行，接收变量里也有换行
用python标准库difflib比较两份文件的异同
鬼杀: 那个这两个文件，不用传他们的地址吗？
shell脚本——如何获取函数的返回值
ytfrdfiw: 例子1不好的是循环变量cont，但实际又不用。 #!/bin/bash function func1(){ count=0 for i in {1..3}; do count=`expr $i+ 1` #也可用count=$((i+1)这种更为明白 done # 函数中使用return返回时，返回值的数据类型必须是数字 return $count } # 在$()的圆括号中可以执行linux命令,当然也包括执行函数 res1=$(func1) # 变量res2将会接收函数的返回值，这里是3 res2=`echo $?` if [[ $res2 == 4 ]]; then echo "func1() succeeded!" else echo "Not a right number!" fi 上述希望作者采纳，修正一下。
shell脚本——如何获取函数的返回值
容光焕发叔叔: 例子1确定执行过吗？res1=$(func1)执行后，$?的值就不是函数的返回值了吧，而是res1=$(func1)这句指令的返回值了.

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。