【XL-LightHouse】开源通用型流式大数据统计平台

概述

  • XL-LightHouse是针对互联网领域繁杂的流式数据统计需求而开发的一套集成了数据写入、数据运算、数据存储和数据可视化等一系列功能,支持大数据量,支持高并发的【通用型流式大数据统计平台】;
  • XL-LightHouse目前已涵盖了常见的流式数据统计场景,包括count、sum、max、min、avg、distinct、topN/lastN等多种运算;
  • XL-LightHouse支持多维度计算,支持分钟级、小时级、天级多个时间粒度的统计,支持自定义统计周期的配置;
  • XL-LightHouse内置丰富的转化类函数、支持表达式解析,可以满足各种复杂的条件筛选和逻辑判断;
  • XL-LightHouse支持时序性数据的存储和查询;
  • XL-LightHouse是一套功能完备的流式大数据统计领域的数据治理解决方案,它提供了比较友好和完善的可视化查询功能,并对外提供API查询接口,此外还包括数据指标管理、权限管理、统计限流等多种功能。

背景

以互联网行业来说,在移动互联网发展比较成熟的现在,流量见顶,红利消失,企业竞争日趋惨烈,获取新增用户的成本日益增高。很多企业开始意识到不能一味的通过补贴、价格战、广告投放这种简单粗暴的方式抢占市场,这样的运作模式很难长时间维系。而通过精细化和数据化运营来降低成本、提升效率、最大化单用户价值的理念逐渐被越来越多的企业所接受。精细化和数据化运营的前提是要建立起一套完善的数据指标体系,借助这个数据指标体系企业可以有多方面的用途:

  • 1、排查问题:数据化运营是让企业业务进入到一种"可控"的状态,帮助企业在业务运转不正常的时候,能够快速的判断出问题所在。
  • 2、业务洞察:数据化运营是让业务运转的各个环节更加透明,帮助企业更清晰的看到目前的"短板"是在什么地方,辅助产品的优化迭代。
  • 3、明确方向:数据化运营是培养敏锐的嗅觉,让企业可以更加准确的判断出市场的走势、捕捉到其中具有业务价值的信息。
  • 4、科学试错:在试错成本日益高企的今天,数据化运营是帮助企业改变以往靠"拍脑袋"来做决定的方式,打破过往的经验主义,辅助决策者思考,快速验证想法,让企业减少成本更加科学的"试错"。

随着企业对数据化运营重视程度的日益增加,必然会衍生出大量的数据统计需求。而XL-LightHouse是以流式大数据统计为切入点,推动流式统计在诸多行业内的快速普及和大规模应用,定位是以一套服务使用较少的服务器资源同时支撑数以万计、数十万计的流式数据统计需求的大数据平台,致力于应对这种呈现"井喷"态势的流式数据统计需求所带来的一系列问题,寄希望于通过更加贴合场景、更具有实用价值的技术方案帮助企业降低数据化运营方面的成本。

收益

XL-LightHouse代表着一种以通用型流式大数据统计技术为切入点,低成本实现企业数据化运营的理念。它可以帮助企业更快速的搭建起一套较为完善的、稳定可靠的数据化运营体系,节省企业在数据化运营方面的投入,主要体现在以下几个方面:

  • 减少企业在流式大数据统计方面的研发成本和数据维护成本。
  • 帮助企业节省时间成本,辅助产品的快速迭代。
  • 为企业节省较为可观的服务器运算资源。
  • 便于数据在企业内部的共享和互通。
  • 此外,XL-LightHouse对中小企业友好,它大大降低了中小企业使用流式大数据统计的技术门槛,通过简单的页面配置和数据接入即可应对繁杂的流式数据统计需求。

架构

XL-LightHouse
XL-LightHouse包括如下几个模块:

  • Client模块,业务方接入SDK,用于上报统计原始消息数据;
  • RPC模块,功能包含接收客户端上报的统计消息数据,对外提供统计结果查询接口;
  • Tasks运算模块,功能包含封装各种流式统计运算场景,执行限流规则判断,解析各统计项的配置信息,消费消息数据并按统计配置进行计算以及保存统计结果;
  • Web模块,功能包含对统计组和统计项进行管理维护、查看统计结果、设置限流规则和管理统计指标访问权限。

系统设计

XL-LightHouse是通用型流式大数据统计平台,它将流式数据统计需求抽象分类成多种运算场景,并对各种运算场景进行高性能的实现从而让每一种运算可以达到无限制复用的效果。
XL-LightHouse使用【统计工程-统计组-统计项】的三层结构来管理所有统计需求。每一个统计需求叫做一个统计项,每个统计项都是基于一种或多种运算场景。用户可根据需要创建若干个统计工程,每个统计工程可包含多个统计项,而基于同一份元数据的多个统计项叫做一个统计组。
XL-LightHouse
Web模块可管理统计项的运行状态,用户可在Web端页面启动、停止、删除指定的统计项,处于运行状态的统计项正常执行统计运算,非运行状态的统计项不执行统计运算。接入系统首先需要用户在Web端进行相应配置,然后通过SDK上报原始数据。系统将统计原始消息数据按照统计周期划分成若干个批次再依据统计配置进行相应计算。

1、自定义流式统计规范(XL-Formula)

SQL规范在大数据查询和统计分析方面被广泛应用,SQL在离线数据分析、OLAP、OLTP等领域都具有不可撼动的地位。而且随着FlinkSQL和SparkSQL等组件功能的日趋完善,SQL在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值