spark2.0操作hive

最新推荐文章于 2023-02-02 21:03:05 发布

森总工作室

最新推荐文章于 2023-02-02 21:03:05 发布

阅读量3k

点赞数

分类专栏： DB技术&&数仓技术文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengxiaosen/article/details/52610502

版权

DB技术&&数仓技术专栏收录该内容

179 篇文章 3 订阅

订阅专栏

用spark直接操作hive方式，完成之前的流量分析统计。

spark＋hive的作用：

1，hive是企业里面离线分析的数据源，hive作为数据源进行rdd加工操作，比如做一些算法类。

2，为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里，要想运行在spark框架里，现在2.0版本就可以直接用hivesql，企业里面很多人做存储过程开发，所以大数据项目百分之80都是第二种情况。通常不会把全部hive作业都转到spark上运行，仅仅会把关键链上的关键作业放到spark上，比如作业链很长，基础作业必需串着跑，上游作业可以并着跑，上游作业也许只有两三分钟就跑完了，影响并不大，但基础作业的影响是很大的，这些基础作业也叫关键作业，这些关键作业要是跑1小时，整个作业的时长就要增加一个小时，这种关键作业通常是放在hive中跑以前，但是现在放在spark中跑，就可以节省很多时间，如果把全部hive作业放到spark中跑，内存会扛不住。

森总工作室

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark2.0操作hive

用spark直接操作hive方式，完成之前的流量分析统计。spark＋hive的作用：1，hive是企业里面离线分析的数据源，hive作为数据源进行rdd加工操作，比如做一些算法类。2，为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里，要想运行在spark框架里，现在2.0版本就可以直接用hivesql，企业里面很多人做存储过
复制链接

扫一扫

专栏目录

森总工作室 CSDN认证博客专家 CSDN认证企业博客

码龄8年

152: 原创

13万+: 周排名

93万+: 总排名

100万+: 访问

: 等级

1万+: 积分

198: 粉丝

146: 获赞

64: 评论

427: 收藏

私信

关注

热门文章

分类专栏

最新评论

c++中指向函数的指针
m0_74240464: 返回值是int*
odl安装的一些坑
啧啧啧可怕: 这个switch是前端ui界面嘛这个我装不上诶
可重复读
ty1314yy: 想问一下，当隔离级别是RR时，事务A执行了select，按照您内容上写的事务B的insert、update、delete操作都执行不了，那什么情况下会出现幻读呢，RR级别不应该是仅仅对应update操作吗。
dpdk多队列机制
guanyuni363: 设备使用dpdk绑定了两张网卡（各八个队列）但是使用rte_eth_dev_configure()配置网卡的时候只检测到八个可用队列，怀疑第二张网卡的队列数根本没有检测到，请问一下怎么样能让使用第二张网卡的队列，有什么解决的办法吗？
mr中的combiner
weixin_43211484: “这行代码是哪行啊？？？”

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。