python使用spark sql查询impala_[SQL]spark sql 直接查询hive或impala中的数据

最新推荐文章于 2024-04-28 20:22:10 发布

pmarca

最新推荐文章于 2024-04-28 20:22:10 发布

阅读量449

点赞数

文章标签： python使用spark sql查询impala

本文链接：https://blog.csdn.net/weixin_32821579/article/details/111986202

版权

本文介绍了如何在SparkStreaming程序中结合SparkSQL，使用SQL进行实时日志数据统计。SparkSQL可以替代Hive，提供更快的计算速度，并且支持在SQL Shell上直接执行Hive查询语句。文章探讨了Spark的DataFrame API和SQL语言API，强调了聚合函数在Spark SQL中的重要性，并提供了通过Spark SQL直接查询Hive或Impala数据的方法。

摘要由CSDN通过智能技术生成

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计 – lxw的大数据田地

http://lxw1234.com/archives/2015/11/552.htm

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。然而，在SparkStreaming程序中如果有复杂业务逻辑的统计，使用scala代码实现起来比较困难，也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分析，是不是就简单的多呢？

本文介绍将SparkSQL与SparkStreaming结合起来，使用SQL完成实时的日志数据统计。

SparkStreaming程序以yarn-cluster模式运行在YARN上，不单独部署Spark集群。

根据上面我们实践的整合Spark+Hive，在执行复杂统计分析时，完全可以使用Spark SQL来替代Hive，至少会提高几倍的速度，对于一些基于Hive统计应用，可能每天晚上要执行6个小时以上的统计计算，导致第二天结果数据都无法出来，如果统计需求再次增加，可能时间还会更长。除了对Hive查询语句进行优化之外，应该说优化空间不大，所以这个时候可以考虑使用Spark平台来实现统计分析，而且，Spark集群可以线性扩展，对于一些调优也更容易一些。

这样我们可以直接在Spark SQL Shell上输入Hive查询语句就可以执行查询分析计算。

Spark从API的角度看，

最低0.47元/天解锁文章

pmarca

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python使用spark sql查询impala_[SQL]spark sql 直接查询hive或impala中的数据

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计 – lxw的大数据田地http://lxw1234.com/archives/2015/11/552.htmFlume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括Sp...
复制链接

扫一扫