pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

最新推荐文章于 2024-02-19 19:58:13 发布

VIP文章 weixin_39793638

最新推荐文章于 2024-02-19 19:58:13 发布

阅读量387

点赞数

文章标签： pyspark kafka mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39793638/article/details/113714091

版权

蜻蜓点水

Flume——数据采集

如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。

下面介绍一下Flume的基本构造。

Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。

Event：Flume 数据传输的基本单元。

Source：用来接收Event，并将Event批量传给Channel。

Channel：Source和Sink之间的Event缓冲通道，它有个type属性，一般为memory，可以提高传输速度。

Sink：负责将数据沉淀到最终存储区，或沉淀给下一个source，形成数据流。

c2e5c347fe60

Flume

在大致了解了以上要素之后，通过上图，我们就可以有一个大概的认识。一句话讲，Source接收数据，并转成Event单元，然后导入Channel缓冲通道，最后，经由Sink进行数据沉淀。当然这里的沉淀，有多种选择，除了上图中的HDFS外，还包括HBase、File，或者作为另一个Source的源。在一系列过程，一条有序的数据流就诞生了。

Kafka——数据的发布/订阅

Kafka，作为基于发布/订阅的消息系统，以其分布式性而受到大家的喜爱。

下面介绍一下Kafka的基本构造。

Broker(代理): Kafka集群可由一个或多个服务器组成，其中的每个服务节点称作这个集群的一个Broker。

Topic(主题): 一个Topic对应一类消息，Topic用作为消息划分类别。

Partition(分区): 一个Topic一般含有多个分区。

Producer(生产者)：消息生产者，负责生产Topic消息。

Consumer(消费者): 消息消费者，负责消费Topic消息。

c2e5c347fe60

Kafka

Zookeeper——服务器间协调

这里需要提一下Zookeeper，对于Kafka这样的分布式服务，大多需要多台服务器相互协调工作，且保持一致性。任意一台服务器出现问题，如果不及时处理，都有可能导致整个服务的崩溃，其后果是不堪设想的。ZooKeeper的分布式设计，可用于领导人选举、群组协同工作和配置服务等，保证了服务的一致性和可用性。

c2e5c347fe60

Zookeeper

Spark Streaming——Spark核心API

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以通过Kafka、HDFS、Flume等多种渠道获取数据，转换数据后利用Spark Engine进行数据处理。现在，包括Python、Java等多种高级语言都对Spark进行支持。本文使用pyspark进行编程。

c2e5c347fe60

Spark Streaming

实践出真知

要做什么

nginx日志分析，简单统计了下PV和UV，并做了H5图表实时展示。使

最低0.47元/天解锁文章

weixin_39793638

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume 数据传输的基本单元。Source：用来接收Event，并将Event批...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。