数据采集与预处理技术考点复习——第三、四章

第三章:大数据采集架构

1. 简述多级Flume架构
在这里插入图片描述
Flume Agent包括Sourse、Channel、Sink

  • Sourse:接收数据并将接收的数据进行封装,然后传递给一个或多个通道(Channel)支持http、jms、rpc、NetCat、Exec、Spooling、Directory。
  • Channel:暂时的存储容器,将从Source处接受到的数据缓存起来,可以存放在memory、jdbc、file等
  • Sink:读取数据并发送给下一个Agent或者最终的目的地。目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义

2. 简述Kafka数据采集架构

Kafka包括Consumers、Broker、Producers

  • Consumers:消息接收者,可以订阅一个或多个话题,接收Broke发送的数据
  • Broker:服务代理,组成Kafka集群并保存已发布的消息
  • Producers:消息发布者,能够发布消息到Topics进程(Topics:消息的分类名)

3. Topic可以分很多区,这些分区有什么作用

作为并行处理单元,使Kafka有能力高效的处理大量数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值