写在前面
2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom( https://github.com/alibaba/jstorm),最近学习SparkStream和Kafka,可以简单模仿一下这个时实计算成交额的过程,主要目的是实际运用这些技术,也了解一下技术的运用场景,加深对技术的理解。
实时计算模型
下图所示为通用SparkStream时实计算模型,主要分为三部分
- 数据源
我们这里的数据源选用了Kafka,关于Kafka的安装与使用说明可以参考这里 https://kafkadoc.beanmr.com/ - SparkStream计算
SparkStream是实时计算的核心,这们这里也是近时实计算,选择一个时间窗口,对时间窗口中的数据做离线计算。 - 数据落地
SparkStream算好的结果可以存HDFS/Mysql/Redis等等,我们这里对商品销售额计算过程有涉及累加,所以选择了Redis
业务模型介绍
我们模仿一个电商系统,每时每刻都有订单成交,每一笔成交的数据以一个事件发送到Kafka中,SparkStream每一分中从Kafka中读取一次数据,计算一分钟内每个商品的销售额,然而写入Redis,并在Redis中累加每分钟的数据,Redis中主要存三种结果数量,从开始到当前总销售额、从开始到当前每个商品销售额、上一分钟每个商品的销售额
Kafka生产者,模拟每时每刻订单交易
生产者输出结果:
上述代码主要模拟一家店铺有十件商品,ID从0到9,每隔一小段随机时间成交一单,成交价格以分为单位,每成交一笔就像Kafka中发送一个消息,用这个生产者模拟线上的真实交易,在实际生产中成交数据可以从日志中获取。
Kafka消费者,SparkStream时实计算
消费者每分钟输出
Redis客户端
Redis结果
上一分钟商品销售额,有了这个数据就可以做成动态的图表展示时实交易额了
每件商品总销售额
总销售额,这就是天猫大屏上的1111亿了