一、背景
在当今信息时代,数据的价值不言而喻。然而,处理海量数据并将其转化为有意义的洞察力是一项艰巨的任务。传统的数据处理方法已经无法满足我们日益增长的需求。为了满足这一挑战,实时数据处理系统应运而生。 实时数据处理系统是一种处理和分析实时数据流的技术。它可以同时进行数据的收集、转换、过滤和聚合等处理过程。与传统的数据处理方式相比,实时数据处理系统能够以接近实时的速度处理和分析数据。
二、实时数据处理系统的特点
- 高速处理:实时数据处理系统可以在毫秒或亚秒级别内处理数据。
- 流式处理:系统能够以流式方式接收和处理连续产生的数据。
- 可扩展性:系统可以轻松地扩展以处理大数据量和高并发。
- 容错性:系统能够在节点故障或其他异常情况下保持稳定运行。
- 智能分析:系统能够实时分析数据并提供有关业务趋势、用户行为等方面的洞察力。
场景:主要应对海量数据实时查询场景,弥补传统
hadoop
或离线数仓在该场景下的不足,时延可以做到秒级,提供实时场景下的即席查询的能力或实时跟离线数据关联分析的能力,毫秒或亚秒级或十万级以上并发等更高的时延要求可能不太适合。
三、实时数据处理面临的挑战
传统数据平台的数据处理流程一般是这样的。首先,从业务系统 CRM
、ERP
或者其他数据源把这些业务数据收集过来,然后经过离线数据 ETL
对数据进行数据清洗、数据加工。在这个过程中会涉及数据建模和分层,最终会把加工后的数据提供给 BI
工具,或者写到数据库并推到一个在线服务系统,供用户进行访问,这些用户包括客户、运营人员或管理团队等等。 目前主要采用传统 Lambda
和 Kappa
架构。以 Lambda
架构的实现方法为例,Lambda
以传统的离线数仓为主,然后引入了实时数据的处理链路。T+1
数据仍然是走传统离线数仓链路,然后再加上一个实时的数据链路,把这些实时数据和离线数据汇总到一起,然后再通过一个服务层提供数据服务,对外提供的服务可能是点查询,也可能是做复杂分析。