大数据平台架构

VIP文章 rona1

已于 2022-03-19 16:34:21 修改

阅读量1.5k

点赞数

文章标签： big data mapreduce hive

于 2022-03-19 11:27:19 首次发布

本文链接：https://blog.csdn.net/rona1/article/details/123577513

版权

一、数据采集

1.ETL，数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。

开源工具：Apatat,Scriptella,Talend,kettle

2.实时采集

Flume,

Flink 流处理，批处理都可

Kafka场景应用

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如spark streaming和storm
事件源

分布式流处理平台 Kafka Streams。

Faust 把 Kafka Streams 带到了 PythonFaust 需求 Python 3.6 或以上

二、数据存储

HDFS

Hive 根据SQL自动生成MapReduce

关注