python使用spark sql查询impala_[SQL]spark sql 直接查询hive或impala中的数据

本文介绍了如何在SparkStreaming程序中结合SparkSQL,使用SQL进行实时日志数据统计。SparkSQL可以替代Hive,提供更快的计算速度,并且支持在SQL Shell上直接执行Hive查询语句。文章探讨了Spark的DataFrame API和SQL语言API,强调了聚合函数在Spark SQL中的重要性,并提供了通过Spark SQL直接查询Hive或Impala数据的方法。
摘要由CSDN通过智能技术生成

SparkSQL结合SparkStreaming,使用SQL完成实时计算中的数据统计 – lxw的大数据田地

http://lxw1234.com/archives/2015/11/552.htm

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在SparkStreaming程序中如果有复杂业务逻辑的统计,使用scala代码实现起来比较困难,也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分析,是不是就简单的多呢?

本文介绍将SparkSQL与SparkStreaming结合起来,使用SQL完成实时的日志数据统计。

SparkStreaming程序以yarn-cluster模式运行在YARN上,不单独部署Spark集群。

根据上面我们实践的整合Spark+Hive,在执行复杂统计分析时,完全可以使用Spark SQL来替代Hive,至少会提高几倍的速度,对于一些基于Hive统计应用,可能每天晚上要执行6个小时以上的统计计算,导致第二天结果数据都无法出来,如果统计需求再次增加,可能时间还会更长。除了对Hive查询语句进行优化之外,应该说优化空间不大,所以这个时候可以考虑使用Spark平台来实现统计分析,而且,Spark集群可以线性扩展,对于一些调优也更容易一些。

这样我们可以直接在Spark SQL Shell上输入Hive查询语句就可以执行查询分析计算。

Spark从API的角度看,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值