大数据：实时大数据和离线大数据

爱写代码的July

于 2024-09-04 00:32:06 发布

阅读量502

点赞数 16

分类专栏：大数据与云计算文章标签：大数据

本文链接：https://blog.csdn.net/Liu_y_xin/article/details/141864091

版权

大数据与云计算专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一实时大数据的介绍及应用场景

实时大数据主要是对实时数据流进行处理和分析，数据在生成后几乎立即被处理，以支持快速决策。

核心特性

低延迟：数据在毫秒或秒级别内处理，几乎实时返回结果。

连续流式处理：数据像流一样不断到达并被处理，而不是分批次处理。

实时反馈：能够及时响应业务需求，如实时告警、推荐、监控等。

应用场景

实时推荐系统：如电商、社交媒体等，根据用户行为进行个性化推荐。

实时监控：网络安全系统实时监控流量、检测异常行为。

金融交易系统：股票交易市场的实时数据分析和决策。

实时大数据架构

数据摄取层：数据通过 Kafka、Kinesis 等进入系统。

流处理层：通过 Flink、Kafka Streams 进行数据处理。

存储与分析层：Redis、Druid 等用于存储、聚合和查询实时数据。

可视化与告警层：使用 Kibana、Grafana 实现数据展示和告警。

二实时大数据的技术实现

1.数据摄取层

Apache Kafka：高吞吐量的分布式消息系统，常用于处理海量实时数据流。

Amazon Kinesis：类似于 Kafka 的云端服务，专门用于实时数据流的收集和处理。

2.流式处理框架

Apache Flink：支持事件时间、状态管理和复杂的流处理，适合处理有状态的复杂流式任务。

Apache Spark Streaming：基于微批次模型处理实时数据，适合处理延迟容忍度较高的场景。

Kafka Streams：内置于 Kafka 的轻量级流式处理库，适用于小规模的流式处理应用。

3.存储与分析

Redis：常用于缓存和快速读取实时处理后的数据。

Elasticsearch：用于存储和快速查询实时日志或指标数据，结合 Kibana 进行可视化。

Apache Druid：专门为实时数据分析设计的数据库，能够高效处理海量实时数据。

三离线大数据的介绍及应用场景

离线大数据处理针对的是批量数据，数据会被定期批量收集和处理，通常延迟较高，但处理的数据量巨大。离线处理更适合长时间积累的数据分析和深度挖掘。

核心特性

高吞吐量：能够处理大量的数据，通常是 TB 甚至 PB 级别的数据。

批处理模式：数据按照批次处理，时间间隔可以是分钟、小时、天甚至更长。

高容忍延迟：离线处理的延迟容忍度高，适合需要深度分析、建模的场景。

应用场景

日志分析：分析长时间收集的服务器或应用日志，生成报表或趋势分析。

离线推荐：基于用户历史行为，进行离线计算和推荐模型训练。

企业数据仓库：企业级数据分析、报表生成和历史数据挖掘。

离线大数据架构

数据存储层：使用 HDFS 或 S3 来存储批量数据。

计算层：利用 Hadoop、Spark 进行批处理任务。

查询与分析层：结合 Hive、Presto、BigQuery 等工具进行查询。

调度与管理层：通过 Oozie 或 Airflow 调度任务。

四离线大数据的技术实现

1.数据摄取与存储

HDFS (Hadoop Distributed File System)：用于存储海量的批量数据，支持高容错和扩展性。

Amazon S3：云端分布式存储，用于存储大规模的非结构化数据。

2.批处理框架

Apache Hadoop (MapReduce)：经典的离线批处理框架，支持对大数据集的分布式处理，常用于日志分析、数据聚合等任务。

Apache Spark：基于内存计算的分布式计算框架，比 Hadoop 快很多，支持批处理和流处理，适合大规模数据分析和机器学习任务。

3.数据仓库与查询引擎

Apache Hive：构建在 Hadoop 之上的数据仓库工具，支持 SQL 查询，用于管理和分析大规模数据。

Presto：高性能的分布式 SQL 查询引擎，支持对多种数据源的批量查询。

Google BigQuery：云原生的 SQL 数据仓库，能够快速查询和分析海量离线数据。

4.调度与管理

Apache Oozie：工作流调度系统，主要用于调度 Hadoop 作业。

Airflow：灵活的工作流调度工具，能够调度不同类型的数据处理作业（如 Spark、Hive）。

五两者的对比

特性	实时大数据	离线大数据
处理模式	流式处理（数据实时到达即处理）	批处理（按批次定期处理）
延迟	毫秒到秒级	分钟到小时级甚至更长
数据规模	通常处理较少的单次数据流，但连续不断	通常处理海量的历史数据
处理框架	Flink、Spark Streaming、Kafka Streams	Hadoop (MapReduce)、Spark
存储系统	Redis、Elasticsearch、Druid	HDFS、S3、数据仓库（Hive、BigQuery）
应用场景	实时监控、实时推荐、实时告警	历史数据分析、离线推荐、日志分析、机器学习