spark sql uv_SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计

最新推荐文章于 2023-05-15 16:32:52 发布

weixin_39624389

最新推荐文章于 2023-05-15 16:32:52 发布

阅读量227

点赞数

文章标签： spark sql uv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39624389/article/details/111761960

版权

关键字：SparkSQL、Spark Streaming、SQL、实时计算

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。然而，在SparkStreaming程序中如果有复杂业务逻辑的统计，使用scala代码实现起来比较困难，也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分析，是不是就简单的多呢？

本文介绍将SparkSQL与SparkStreaming结合起来，使用SQL完成实时的日志数据统计。

SparkStreaming程序以yarn-cluster模式运行在YARN上，不单独部署Spark集群。

环境部署

Hadoop-2.3.0-cdh5.0.0(YARN)

spark-1.5.0-bin-hadoop2.3

kafka_2.10-0.8.2.1

另外，还编译了SparkStreaming用于读取Kafka数据的插件：

spark-streaming-kafka_2.10-1.5.0.jar

相关环境的部署本文不做介绍，请参考文章最后的相关阅读。

实时统计需求

以60秒为间隔，统计60秒内的pv,ip数,uv

最终结果包括：

时间点：pv：ips：uv

原始日志格式

2015-11-11T14:59:59|~|xxx|~|202.109.201.181|~|xxx|~|xxx|~|xxx|~|B5C96DCA0003DB546E7

2015-11-11T14:59:59|~|xxx|~|125.119.144.252|~|xxx|~|xxx|~|xxx|~|B1611D0E00003857808

2015-11-11T14:59:59|~|xxx|~|125.119.144.252|~|xxx|~|xxx|~|xxx|~|1555BD0100016F2E76F

2015-11-11T15:00:00|~|xxx|~|125.119.144.252|~|xxx|~|xxx|~|xxx|~|C0EA13670E0B942E70E

2015-11-11T15:00:00|~|xxx|~|125.119.144.252|~|xxx|~|xxx|~|xxx|~|C0EA13670E0B942E70E

2015-11-11T15:00:01|~|xxx|~|125.

最低0.47元/天解锁文章

weixin_39624389

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark sql uv_SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计

关键字：SparkSQL、Spark Streaming、SQL、实时计算Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。然而，在SparkStreaming程序中如果有复杂业务逻辑的统计，使用scala代码实现起来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。