前言
记录 学习大数据技术过程中的学习笔记
目录
一、Flume介绍
Flume是一个高可用,高可靠,分布式的海量日志采集,聚合和传输的系统
二、Flume特性
它有一个简单、灵活的基于流的数据流结构
具有负载均衡机制和故障转移机制
一个简单可扩展的数据模型(Source,Channel,Sink)
三、Flume的三大核心组件
Source组件
Source:从外界采集各种类型数据,将数据传递给Channel
Source的类型有很多:文件、目录、端口、KafKa等
ExecSource:实现文件监控;注意tail -F(根据文件名进行追踪) 和 tail -f (根据文件描述符进行追踪) 的区别
常用的source组件
NatCat TCP/UDP Source:采集指定端口(tcp、udp)的数据
Spooling Directory Source: 采集文件夹里新增的文件
KafKa Source:从Kafk