数据采集篇:大数据技术之Flume

一、Flume简介

1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。

2) Flume基于流式架构,容错性强,也很灵活简单。

3) Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。

二、Flume角色

640?wx_fmt=png



2.1、Source

用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。

2.2Channel

用于桥接Sources和Sinks,类似于一个队列。

2.3Sink

从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)

2.4、Event

传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。

三、Flume传输过程

source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。

四、Flume部署及使用

4.1、文件配置

查询JAVA_HOME:echo $JAVA_HOME

显示/opt/module/jdk1.8.0_144  /opt/module/jdk1.8.0_144

安装Flume

[itstar@hadoop104 software]$ tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

改名:

[itstar@hadoop104 conf]$ mv flume-env.sh.template flume-env.sh

flume-env.sh涉及修改项:

export JAVA_HOME=/opt/module/jdk1.8.0_144

 

4.2、案例

4.2.1、案例一:监控端口数据

目标:Flume监控一端Console,另一端Console发送消息,使被监控端实时显示。

分步实现:

1) 安装telnet工具

【联网】

[itstar@hadoop104 module]$ sudo yum install telnet xinetd-2.3.14-40.el6.x86_64.rpm

(安装完第一个,无需安装剩下的两条 /yum自动解决依赖关系)

[itstar@hadoop104 module]$ sudo yum -y install telnet telnet-0.17-48.el6.x86_64.rpm

[itstar@hadoop104 module]$ sudo yum -y install telnet telnet-server-0.17-48.el6.x86_64.rpm

2) 创建Flume Agent配置文件flume-telnet.conf

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

 

# Describe/configure the source

a1.sources.r1.type = netcat

a1.sources.r1.bind = hadoop104

a1.sources.r1.port = 44445

 

# Describe the sink

a1.sinks.k1.type = logger

 

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

3) 判断44444端口是否被占用

$ netstat -tunlp | grep 44445

4) 先开启flume先听端口

在conf下创建job文件夹

$ bin/flume-ng agent \

--conf conf/ \

--name a1 \

--conf-file conf/job/flume-telnet.conf -Dflume.root.logger==INFO,console

5) 使用telnet工具向本机的44444端口发送内容

$ telnet localhost 44445

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值