Apache Flume使用

最新推荐文章于 2024-07-01 13:05:14 发布

睡覺了

最新推荐文章于 2024-07-01 13:05:14 发布

阅读量6.8k

点赞数

分类专栏： # Flume 大数据

本文链接：https://blog.csdn.net/bbvjx1314/article/details/103500203

版权

大数据同时被 2 个专栏收录

230 篇文章 7 订阅

订阅专栏

Flume

2 篇文章 0 订阅

订阅专栏

===========Apache Flume============

  01.概述 
        1.Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 
        2.Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。 为了保证输送的过程一定成功， 在送到目的地(sink)之前，
          会先缓存数据(channel)，待数据真正到达目的地(sink)后，flume 在删除自己缓存的数据。 
        3.Flume 支持定制各类数据发送方，用于收集各类型数据；同时，Flume 支持定制各种数据接收方，用于最终存储数据。
        4.一般的采集需求，通过对 flume 的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此，flume 可以适用于大部分的日常数据采集场景。 
        5.当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG（original generation） ，Flume1.X 版本的统称 Flume NG（next generation） 。
        6.由于 Flume NG 经过核心组件、核心配置以及代码架构重构，与 Flume OG 有很大不同，使用时请注意区分。改动的另一原因是将 Flume 纳入 apache 旗下，
          Cloudera Flume 改名为 Apache Flume。

  02.运行机制 
        1.Flume 系统中核心的角色是 agent，agent 本身是一个 Java 进程，一般运行在日志收集节点。
        2.每一个 agent 相当于一个数据传递员，内部有三个组件： 
            1.Source：采集源，用于跟数据源对接，以获取数据； 
            2.Sink：下沉地，采集数据的传送目的，用于往下一级 agent 传递数据 或者 往最终存储系统传递数据； 
            3.Channel：
                agent 内部的数据传输通道，用于从 source 将数据传递到 sink；  
                在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。 
                event 将传输的数据进行封装。 如果是文本文件， 通常是一行记录，event 也是事务的基本单位。
                event 从 source，流向 channel，再到 sink，本身为一个字节数组，并可携带 headers(头信息)信息。
                event 代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。 
                一个完整的 event 包括：event headers、event body、event 信息，其中event 信息就是 flume 收集到的日记记录。

03.Flume 采集系统结构图
1.简单结构：单个 agent 采集数据

2.复杂结构：多级 agent 之间串联

Flume 简单案例：

1.采集目录到 HDFS
        1.采集需求：服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到 HDFS 中去
        2.根据需求，首先定义以下 3 大要素：
1.采集源：即 source — 监控文件目录 spooldir
2.下沉目标：即 sink — HDFS 文件系统 hdfs sink
3.source 和 sink 之间的传递通道 — channel，可用 file channel 也可以用内存 channel

        3.配置文件编写：
            # 定义这个 agent 中各组件的名字
            a1.sources = r1
            a1.sinks = k1
            a1.channels = c1

            # 描述和配置 source 组件：r1
            ##注意：不能往监控目录中重复丢同名文件
            a1.sources.r1.type = spooldir
            a1.sources.r1.spoolDir = /root/logs
            a1.sources.r1.fileHeader = true

            # 描述和配置 sink 组件：k1
            a1.sinks.k1.type = hdfs
            a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
            a1.sinks.k1.hdfs.filePrefix = events-
            a1.sinks.k1.hdfs.round = true
            a1.sinks.k1.hdfs.roundValue = 10
            a1.sinks.k1.hdfs.roundUnit = minute
            a1.sinks.k1.hdfs.rollInterval = 3
            a1.sinks.k1.hdfs.rollSize = 20
            a1.sinks.k1.hdfs.rollCount = 5
            a1.sinks.k1.hdfs.batchSize = 1
            a1.sinks.k1.hdfs.useLocalTimeStamp = true
            #生成的文件类型，默认是 Sequencefile，可用 DataStream，则为普通文本
            a1.sinks.k1.hdfs.fileType = DataStream

            # 描述和配置 channels 组件c1 ，此处使用是内存缓存的方式
            a1.channels.c1.type = memory
            a1.channels.c1.capacity = 1000
            a1.channels.c1.transactionCapacity = 100

            # 描述和配置 source、channel、sink 之间的连接关系
            a1.sources.r1.channels = c1
            a1.sinks.k1.channel = c1

        4.Channel 参数解释：
            capacity：默认该通道中最大的可以存储的 event 数量
            trasactionCapacity：每次最大可以从 source 中拿到或者送到 sink 中的 event 数量

2.采集文件到 HDFS
        1.采集需求：比如业务系统使用 log4j 生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到 hdfs
        2.根据需求，首先定义以下 3 大要素
1.采集源：即 source — 监控文件内容更新：exec ‘tail -F file’
2.下沉目标：即 sink — HDFS 文件系统：hdfs sink
3.Source 和 sink 之间的传递通道 — channel，可用 file channel 也可以用内存 channel

        3.配置文件编写：
            # 定义这个 agent 中各组件的名字
            a1.sources = r1
            a1.sinks = k1
            a1.channels = c1

            # 描述和配置 source 组件：r1
            a1.sources.r1.type = exec
            a1.sources.r1.command = tail -F /root/logs/test.log
            a1.sources.r1.channels = c1

            # 描述和配置 sink 组件：k1
            a1.sinks.k1.type = hdfs
            a1.sinks.k1.hdfs.path = /flume/tailout/%y-%m-%d/%H%M/
            a1.sinks.k1.hdfs.filePrefix = events-
            a1.sinks.k1.hdfs.round = true
            a1.sinks.k1.hdfs.roundValue = 10
            a1.sinks.k1.hdfs.roundUnit = minute
            a1.sinks.k1.hdfs.rollInterval = 3
            a1.sinks.k1.hdfs.rollSize = 20
            a1.sinks.k1.hdfs.rollCount = 5
            a1.sinks.k1.hdfs.batchSize = 1
            a1.sinks.k1.hdfs.useLocalTimeStamp = true
            #生成的文件类型，默认是 Sequencefile，可用 DataStream，则为普通文本
            a1.sinks.k1.hdfs.fileType = DataStream

            # 描述和配置 channels 组件c1，此处使用是内存缓存的方式
            a1.channels.c1.type = memory
            a1.channels.c1.capacity = 1000
            a1.channels.c1.transactionCapacity = 100

            # 描述和配置 source、channel、sink 之间的连接关系
            a1.sources.r1.channels = c1
            a1.sinks.k1.channel = c1

4.参数解析：
1.rollInterval
                默认值：30
                hdfs sink 间隔多长将临时文件滚动成最终目标文件，单位：秒；
                如果设置成 0，则表示不根据时间来滚动文件；
                注：滚动（roll）指的是，hdfs sink 将临时文件重命名成最终目标文件，并新打开一个临时文件来写入数据；    2.rollSize
                默认值：1024
                当临时文件达到该大小（单位：bytes）时，滚动成目标文件；
                如果设置成 0，则表示不根据临时文件大小来滚动文件；
3.rollCount
                默认值：10
                当 events 数据达到该数量时候，将临时文件滚动成目标文件；
                如果设置成 0，则表示不根据 events 数据来滚动文件；
4.round
                默认值：false
                是否启用时间上的“舍弃”，这里的“舍弃”，类似于“四舍五入”。
5.roundValue
                默认值：1
                时间上进行“舍弃”的值；
            6.roundUnit
                默认值：seconds
                时间上进行“舍弃”的单位，包含：second,minute,hour
                示例：
                    a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S
                    a1.sinks.k1.hdfs.round = true
                    a1.sinks.k1.hdfs.roundValue = 10
                    a1.sinks.k1.hdfs.roundUnit = minute
                    当时间为 2015-10-16 17:38:59 时候，hdfs.path 依然会被解析为：
                    /flume/events/20151016/17:30/00
                    因为设置的是舍弃 10 分钟内的时间，因此，该目录每 10 分钟新生成一个。

Apache Flume--案例--采集目录/文件至 HDFS

采集目录到 HDFS
        1.采集需求：服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到 HDFS 中去
        2.根据需求，首先定义以下 3 大要素：
               1.采集源：即 source — 监控某文件所在的目录，配置“spoolDir = 要监控的文件所在的目录”
               2.下沉目标：即 sink — HDFS 文件系统 hdfs sink
               3.source 和 sink 之间的传递通道 — channel，可用 file channel 也可以用内存 channel

实现步骤：
    1.mkdir -p /root/logs
    2.cd /root/flume/conf
    3.vim spooldir-hdfs.conf内容如下：
        # Name the components on this agent
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1
 
        # Describe/configure the source
        ##注意：不能往监控目中重复丢同名文件
        a1.sources.r1.type = spooldir
        a1.sources.r1.spoolDir = /root/logs
        a1.sources.r1.fileHeader = true
 
        # Describe the sink
        a1.sinks.k1.type = hdfs
        a1.sinks.k1.channel = c1
        a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
        a1.sinks.k1.hdfs.filePrefix = events-
        a1.sinks.k1.hdfs.round = true
        a1.sinks.k1.hdfs.roundValue = 10
        a1.sinks.k1.hdfs.roundUnit = minute
        a1.sinks.k1.hdfs.rollInterval = 3
        a1.sinks.k1.hdfs.rollSize = 20
        a1.sinks.k1.hdfs.rollCount = 5
        a1.sinks.k1.hdfs.batchSize = 1
        a1.sinks.k1.hdfs.useLocalTimeStamp = true
        #生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
        a1.sinks.k1.hdfs.fileType = DataStream
 
        # Use a channel which buffers events in memory
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100
 
        # Bind the source and sink to the channel
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
 
    4.启动flume：
        1.cd /root/flume 
        2.chmod 777 flume-ng
        3.启动命令：bin/flume-ng agent -c conf/ -f conf/spooldir-hdfs.conf -n a1 -Dflume.root.logger=INFO,console
                    -c conf 或 --conf conf：指定 flume 框架自带的配置文件所在目录名 
                    -f conf/xxx.conf 或 --conf-file conf/xxx.conf：指定我们所自定义创建的采集方案为conf目录下的xxx.conf 
                    -name agent的名字：指定我们这个agent 的名字
 
            启动的最后会显示：Component type: SOURCE, name: r1 started 
            表示 r1 已经启动  
 
        4.注意：
            此处之所以只执行“cd /root/flume”，而不是执行“cd /root/flume/bin”，是因为启动命令中要指定的是以当前路径为开始找配置文件，
            比如 “--conf conf/” 表示以 “/root/flume”的当前路径找到“conf/”。
            比如“--conf-file conf/netcat-logger.conf”表示以 “/root/flume”的当前路径找到“conf目录下的netcat-logger.conf”。
 
    5.测试是否成功： 
        往/root/logs 放文件（比如 mv xx.log /root/logs 或 cp xx.log /root/logs） 
        然后flume打印的信息最后显示：Writer callback called
        访问http://node1:50070/ 便能查看到如下信息，自动创建多了一个/flume/events/目录用于存储数据

采集文件到 HDFS

采集文件到 HDFS
        1.采集需求：比如业务系统使用 log4j 生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到 hdfs
        2.根据需求，首先定义以下 3 大要素
               1.采集源：即 source — 监控文件内容更新：exec ‘tail -F file’
               2.下沉目标：即 sink — HDFS 文件系统：hdfs sink
               3.Source 和 sink 之间的传递通道 — channel，可用 file channel 也可以用内存 channel

实现步骤：
    1.vim /root/logs/test.log 中保存任意数据保存退出
    2.cd /root/flume/conf
    3.vim tail-hdfs.conf 内容如下：
        # Name the components on this agent
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1
 
        # Describe/configure the source
        a1.sources.r1.type = exec
        a1.sources.r1.command = tail -F /root/logs/test.log
        a1.sources.r1.channels = c1
 
        # Describe the sink
        a1.sinks.k1.type = hdfs
        a1.sinks.k1.channel = c1
        a1.sinks.k1.hdfs.path = /flume/tailout/%y-%m-%d/%H%M/
        a1.sinks.k1.hdfs.filePrefix = events-
        a1.sinks.k1.hdfs.round = true
        a1.sinks.k1.hdfs.roundValue = 10
        a1.sinks.k1.hdfs.roundUnit = minute
        a1.sinks.k1.hdfs.rollInterval = 3
        a1.sinks.k1.hdfs.rollSize = 20
        a1.sinks.k1.hdfs.rollCount = 5
        a1.sinks.k1.hdfs.batchSize = 1
        a1.sinks.k1.hdfs.useLocalTimeStamp = true
        #生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
        a1.sinks.k1.hdfs.fileType = DataStream
 
        # Use a channel which buffers events in memory
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100
 
        # Bind the source and sink to the channel
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
 
    4.启动flume：
        1.cd /root/flume 
        2.chmod 777 flume-ng
        3.启动命令： bin/flume-ng agent -c conf/ -f conf/tail-hdfs.conf -n a1 -Dflume.root.logger=INFO,console
                    -c conf 或 --conf conf：指定 flume 框架自带的配置文件所在目录名 
                    -f conf/xxx.conf 或 --conf-file conf/xxx.conf：指定我们所自定义创建的采集方案为conf目录下的xxx.conf 
                    -name agent的名字：指定我们这个agent 的名字
 
             启动的最后会显示：Writer callback called 
 
        4.注意：
            此处之所以只执行“cd /root/flume”，而不是执行“cd /root/flume/bin”，是因为启动命令中要指定的是以当前路径为开始找配置文件，
            比如 “--conf conf/” 表示以 “/root/flume”的当前路径找到“conf/”。
            比如“--conf-file conf/netcat-logger.conf”表示以 “/root/flume”的当前路径找到“conf目录下的netcat-logger.conf”。
 
    5.测试是否成功： 
        在第一台Linux下 执行 while true ; do echo 'access  access....' >>/root/logs/test.log;sleep 0.5;done 便可不断往 /root/logs/目录下的test.log存储数据，
        那么flume便能监听到“tail -F /root/logs/test.log”动态打印的信息，然后把该些信息写入到/flume/tailout/目录下的文件中。
        访问http://node1:50070/ 便能查看到如下信息，自动创建多了一个/flume/tailout/目录用于存储数据