大数据之Flume

最新推荐文章于 2021-09-20 22:17:44 发布

Jecky不姓码

最新推荐文章于 2021-09-20 22:17:44 发布

阅读量165

点赞数

分类专栏：大数据实践学习(小白归纳) Flume 文章标签： Flume

本文链接：https://blog.csdn.net/weixin_29057619/article/details/102453561

版权

84 篇文章 0 订阅

订阅专栏

2 篇文章 1 订阅

订阅专栏

Flume

数据收集的方式大概两种：
日志： Flume
网页-：收集手段 – 爬虫，埋点

Event：
a.Flume会将收集每一条日志封装成一个Event对象
b.Event对象本质上是一个json串，包含headers以及body，收集的日志是放在body中的
Agent：
a.在Flume中，Flume的结构是以Agent形式来组建的
b.Agent由Source，Channerl和Sink结构来组成的
c.source：从数据源采集数据
d.Channel：缓存数据
e.Sink：将数据发送写往目的地
f. 在Flume中，一个Source可以绑定多个Channel
（Agent是单级流动）
多级流动
扇入流动
扇出流动

wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/apache-flume-1.6.0-bin.tar.gz 在云主机安装
wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/nc-1.84-22.el6.x86_64.rpm
在云主机上安装nc，用来启动hadoop端口

AVRO: 接收AVRO序列化之后的数据，结合AVRO Sink可以实现多级流动，扇入流动和扇出流动
Spooling Directory：监听指定的目录，当目录中新添文件的时候，这个文件中的内容会自动被收集，但是收集够的文件再被篡改不再收集。
HTTP：监听HTTP请求，并且最好监听POST请求，GET请求不稳定，其他请求方式不支持
自定义Source：
a.如果需要自定义Source，需要实现EcentDrivenSource或者PollableSource
i EventDrivenSource:时间驱动Source-被动型Source，不会提供线程去获取数据，需要自定义线程去获取数据。
ii PollabkeSource：拉取Source-主动型Source，提供了线程获取数据
b.需要实现Configurable接口获取指定的属性值