spark近实时流式计算平台

流星实时数据开发平台


一个实时地干离线的活的流式计算平台!
基于hive sql,能进行任何复杂业务的sql运算。
UV,PV,新UV,跟踪类指标,在线时长、在线人数等等,都可以算。并且是0误差。

本平台已用每天几十亿行的数据验证通过。 
源码地址:https://github.com/meteorchenwu/meteor


一、特点
    1、支持任何量级的0误差去重。
    2、支持任何量级的大表join。
    3、基于hive sql,支持创建中间表。
    4、分钟级时延,一般为2分钟。(依赖于spark stream去kafka取数据的间隔频次)

二、使用技术
    1、框架:kafka,spark-stream,spark-sql,redis集群,cassandra(可选),mysql
    2、开发语言:java,scala

三、示意图
    

 
    1、系统按固定间隔(如1min)去kafka拉数据,叫时间片数据。
    2、系统将各时间片数据转换成表,基于hive sql进行运算。
    3、系统对各时间片数据独立无干扰进行运算。每个表系统都会自动加上当前时间片的uuid。
    4、通过函数:c_sum,c_distinct,c_join,c_max和c_min。利用redis或cassandra,对所有时间片进行全局运算。

 

四、SQL帮助文档

    查看详情


五、demo安装示例
    demo安装
    demo示例

六、问题
    查看详情

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值