
    flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 移动大量的日志数据用以集中式管理的系统。


    Flume Event - Flume 事件 - 被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。
    Flume Agent- Flume 代理 - 是一个进程承载从外部源事件流到下一个目的地的过程。包含source channel 和 sink
    Source - 数据源 - 消耗外部传递给他的事件,外部源将数据按照Flume Source 能识别的格式将Flume事件发送给Flume Source
    Channel - 数据通道 -  是一个被动的存储,用来保持事件,直到由一个Flume Sink消耗。
    Sink - 数据汇聚点 - 代表外部数据存放位置。发送flume中的事件到指定的外部目标。



        #命名Agent a1的组件
        a1.sources  =  r1
        a1.sinks  =  k1
        a1.channels  =  c1

        a1.sources.r1.type  =  netcat
        a1.sources.r1.bind  =
        a1.sources.r1.port  =  44444

        a1.sinks.k1.type  =  logger

        a1.channels.c1.type  =  memory
        a1.channels.c1.capacity  =  1000 
        a1.channels.c1.transactionCapacity  =  100

        a1.sources.r1.channels  =  c1
        a1.sinks.k1.channel  =  c1

        **一个配置文件中可以配置多个Agent,一个Agent中可以包含多个Source Sink Channel
        **一个Source 可以绑定到多个通道,一个Sink只能绑定到一个通道

        $ bin/flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger=INFO,console

    !!!1.Avro Source
        利用Avro Source可以实现多级流动、扇出流、扇入流等效果。

            !channels    –     
            !type    –    类型名称,"AVRO"
            !bind    –    需要监听的主机名或IP
            !port    –    要监听的端口
            threads    –    工作线程最大线程数
            interceptors    –    空格分隔的拦截器列表
            compression-type    none    压缩类型,可以是“none”或“default”,这个值必须和AvroSource的压缩格式匹配
            ssl    false    是否启用ssl加密,如果启用还需要配置一个“keystore”和一个“keystore-password”.
            keystore    –    为SSL提供的 java密钥文件 所在路径
            keystore-password    –    为SSL提供的 java密钥文件 密码
            keystore-type    JKS    密钥库类型可以是 “JKS” 或 “PKCS12”.
            exclude-protocols    SSLv3    空格分隔开的列表,用来指定在SSL / TLS协议中排除。SSLv3将总是被排除除了所指定的协议。
            ipFilter    false    如果需要为netty开启ip过滤,将此项设置为true
            ipFilterRules    –    陪netty的ip过滤设置表达式规则
                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  =  avro
                a1.sources.r1.bind  =
                a1.sources.r1.port  =  33333

                a1.sinks.k1.type  =  logger
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1
                ./flume-ng agent --conf ../conf --conf-file ../conf/template2.conf --name a1 -Dflume.root.logger=INFO,console
                ./flume-ng avro-client --conf ../conf --host --port 33333 --filename ../mydata/log1.txt

    2.Exec Source

            !channels    –     
            !type    –    类型名称,需要是"exec"
            !command    –    要执行的命令
            shell    –    A shell invocation used to run the command. e.g. /bin/sh -c. Required only for commands relying on shell features like wildcards, back ticks, pipes etc.
            restartThrottle    10000    毫秒为单位的时间,用来声明等待多久后尝试重试命令
            restart    false    如果cmd挂了,是否重启cmd
            logStdErr    false    无论是否是标准错误都该被记录
            batchSize    20    同时发送到通道中的最大行数
            batchTimeout    3000    如果缓冲区没有满,经过多长时间发送数据
            selector.type    复制还是多路复用
            selector.*         Depends on the selector.type value
            interceptors    –    空格分隔的拦截器列表
                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  =  exec
                a1.sources.r1.command = ping ip地址

                a1.sinks.k1.type  =  logger
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1

                ./flume-ng agent --conf ../conf --conf-file ../conf/template2.conf --name a1 -Dflume.root.logger=INFO,console

            **可以通过tail命令,收集日志文件中后续追加的日志tail -F xx.file >> x.file

    !!!3.Spooling Directory Source    

            !channels    –     
            !type    –    类型,需要指定为"spooldir"
            !spoolDir    –    读取文件的路径,即"搜集目录"
            fileSuffix    .COMPLETED    对处理完成的文件追加的后缀
            deletePolicy    never    处理完成后是否删除文件,需是"never"或"immediate"
            fileHeader    false    Whether to add a header storing the absolute path filename.
            fileHeaderKey    file    Header key to use when appending absolute path filename to event header.
            basenameHeader    false    Whether to add a header storing the basename of the file.
            basenameHeaderKey    basename    Header Key to use when appending basename of file to event header.
            ignorePattern    ^$    正则表达式指定哪些文件需要忽略
            trackerDir    .flumespool    Directory to store metadata related to processing of files. If this path is not an absolute path, then it is interpreted as relative to the spoolDir.
            consumeOrder    处理文件的策略,oldest, youngest 或 random。
            maxBackoff    4000    The maximum time (in millis) to wait between consecutive attempts to write to the channel(s) if the channel is full. The source will start at a low backoff and increase it exponentially each time the channel throws a ChannelException, upto the value specified by this parameter.
            batchSize    100    Granularity at which to batch transfer to the channel
            inputCharset    UTF-8    读取文件时使用的编码。
            decodeErrorPolicy    FAIL    当在输入文件中发现无法处理的字符编码时如何处理。FAIL:抛出一个异常而无法 ​​解析该文件。REPLACE:用“替换字符”字符,通常是Unicode的U + FFFD更换不可解析角色。 忽略:掉落的不可解析的字符序列。
            deserializer    LINE    声明用来将文件解析为事件的解析器。默认一行为一个事件。处理类必须实现EventDeserializer.Builder接口。
            deserializer.*         Varies per event deserializer.
            bufferMaxLines    –    (Obselete) This option is now ignored.
            bufferMaxLineLength    5000    (Deprecated) Maximum length of a line in the commit buffer. Use deserializer.maxLineLength instead.
            selector.type    replicating    replicating or multiplexing
            selector.*         Depends on the selector.type value
            interceptors    –    Space-separated list of interceptors

                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  = spooldir
                a1.sources.r1.spoolDir  = /home/park/work/apache-flume-1.6.0-bin/mydata

                a1.sinks.k1.type  =  logger
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1

                ./flume-ng agent --conf ../conf --conf-file ../conf/template4.conf --name a1 -Dflume.root.logger=INFO,console


    !4.NetCat Source
        一个NetCat Source用来监听一个指定端口,并将接收到的数据的每一行转换为一个事件。

            !channels    –     
            !type    –    类型名称,需要被设置为"netcat"
            !bind    –    指定要绑定到的ip或主机名。
            !port    –    指定要绑定到的端口号
            max-line-length    512    单行最大字节数
            ack-every-event    true    对于收到的每一个Event是否响应"OK"
            interceptors    –    


    5.Sequence Generator Source -- 序列发生器源

            !channels    –     
            !type    –    类型名称,必须为"seq"
            interceptors    –    
            batchSize    1

                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  = seq

                a1.sinks.k1.type  =  logger
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1
                ./flume-ng agent --conf ../conf --conf-file ../conf/template4.conf --name a1 -Dflume.root.logger=INFO,console

    !6.HTTP Source
        这个处理器接受一个 HttpServletRequest对象,并返回一个Flume Envent对象集合。
        从一个HTTP请求中得到的事件将在一个事务中提交到通道中。thus allowing for increased efficiency on channels like the file channel。

            !type         类型,必须为"HTTP"
            !port    –    监听的端口
            bind    监听的主机名或ip
            handler    org.apache.flume.source.http.JSONHandler    处理器类,需要实现HTTPSourceHandler接口
            handler.*    –    处理器的配置参数
            interceptors    –    
            enableSSL    false    是否开启SSL,如果需要设置为true。注意,HTTP不支持SSLv3。
            excludeProtocols    SSLv3    空格分隔的要排除的SSL/TLS协议。SSLv3总是被排除的。
            keystore         密钥库文件所在位置。
            keystorePassword Keystore 密钥库密码

                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  = http
                a1.sources.r1.port  = 66666

                a1.sinks.k1.type  =  logger
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1

                ./flume-ng agent --conf ../conf --conf-file ../conf/template6.conf --name a1 -Dflume.root.logger=INFO,console
                curl -X POST -d '[{ "headers" :{"a" : "a1","b" : "b1"},"body" : "hello~http~flume~"}]'

                可以处理JSON格式的数据,并支持UTF-8 UTF-16 UTF-32字符集
                该handler接受Evnet数组,并根据请求头中指定的编码将其转换为Flume Event
                  "headers" : {
                             "timestamp" : "434324343",
                             "host" : "random_host.example.com"
                  "body" : "random_body"
                  "headers" : {
                             "namenode" : "namenode.example.com",
                             "datanode" : "random_datanode.example.com"
                  "body" : "really_random_body"
            To set the charset, the request must have content type specified as application/json;charset=UTF-8 (replace UTF-8 with UTF-16 or UTF-32 as required).
            One way to create an event in the format expected by this handler is to use JSONEvent provided in the Flume SDK and use Google Gson to create the JSON string using the Gson#fromJson(Object, Type) method.

                !handler    –    The FQCN of this class: org.apache.flume.sink.solr.morphline.BlobHandler
                handler.maxBlobLength    100000000    The maximum number of bytes to read and buffer for a given request    

    7.Custom source -- 自定义源

            !channels    –     
            !type    –    类型,必须设置为自己的自定义处理类的全路径名
            interceptors    –    
6.Sink - 汇聚点
    !!!1.Logger Sink 

            !channel    –     
            !type    –    The component type name, needs to be logger
            maxBytesToLog    16    Maximum number of bytes of the Event body to log

            要求必须在 --conf 参数指定的目录下有 log4j的配置文件


    !!!2.File Roll Sink

            !channel    –     
            !type    –    类型,必须是"file_roll"
            !sink.directory    –    文件被存储的目录
            sink.rollInterval    30    滚动文件每隔30秒(应该是每隔30秒钟单独切割数据到一个文件的意思)。如果设置为0,则禁止滚动,从而导致所有数据被写入到一个文件中。
            sink.serializer    TEXT    Other possible options include avro_event or the FQCN of an implementation of EventSerializer.Builder interface.
            batchSize    100     

                #命名Agent a1的组件
                a1.sources  =  r1
                a1.sinks  =  k1
                a1.channels  =  c1

                a1.sources.r1.type  = http
                a1.sources.r1.port  = 6666

                a1.sinks.k1.type  = file_roll
                a1.sinks.k1.sink.directory = /home/park/work/apache-flume-1.6.0-bin/mysink
                a1.channels.c1.type  =  memory
                a1.channels.c1.capacity  =  1000
                a1.channels.c1.transactionCapacity  =  100

                a1.sources.r1.channels  =  c1
                a1.sinks.k1.channel  =  c1

                ./flume-ng agent --conf ../conf --conf-file ../conf/template7.conf --name a1 -Dflume.root.logger=INFO,console
    !!!3.Avro Sink
        是实现多级流动 和 扇出流(1到多) 扇入流(多到1) 的基础。    

            !channel    –     
            !type    –    The component type name, needs to be avro.
            !hostname    –    The hostname or IP address to bind to.
            !port    –    The port # to listen on.
            batch-size    100    number of event to batch together for send.
            connect-timeout    20000    Amount of time (ms) to allow for the first (handshake) request.
            request-timeout    20000    Amount of time (ms) to allow for requests after the first.
            reset-connection-interval    none    Amount of time (s) before the connection to the next hop is reset. This will force the Avro Sink to reconnect to the next hop. This will allow the sink to connect to hosts behind a hardware load-balancer when news hosts are added without having to restart the agent.
            compression-type    none    This can be “none” or “deflate”. The compression-type must match the compression-type of matching AvroSource
            compression-level    6    The level of compression to compress event. 0 = no compression and 1-9 is compression. The higher the number the more compression
            ssl    false    Set to true to enable SSL for this AvroSink. When configuring SSL, you can optionally set a “truststore”, “truststore-password”, “truststore-type”, and specify whether to “trust-all-certs”.
            trust-all-certs    false    If this is set to true, SSL server certificates for remote servers (Avro Sources) will not be checked. This should NOT be used in production because it makes it easier for an attacker to execute a man-in-the-middle attack and “listen in” on the encrypted connection.
            truststore    –    The path to a custom Java truststore file. Flume uses the certificate authority information in this file to determine whether the remote Avro Source’s SSL authentication credentials should be trusted. If not specified, the default Java JSSE certificate authority files (typically “jssecacerts” or “cacerts” in the Oracle JRE) will be used.
            truststore-password    –    The password for the specified truststore.
            truststore-type    JKS    The type of the Java truststore. This can be “JKS” or other supported Java truststore type.
            exclude-protocols    SSLv3    Space-separated list of SSL/TLS protocols to exclude. SSLv3 will always be excluded in addition to the protocols specified.
            maxIoWorkers    2 * the number of available processors in the machine    The maximum number of I/O w

        案例1 - 多级流动:


                    ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

                ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

                curl -X POST -d '[{ "headers" :{"a" : "a1","b" : "b1"},"body" : "hello~http~flume~"}]'

        案例2:扇出流 - 复制
            h2 h3:

                    ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

                    a1.sinks=k1 k2
                    a1.channels=c1 c2

                    a1.sources.r1.channels=c1 c2
                    ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

        案例3:扇出流 - 多路复用(路由)
                h2 h3:

                    ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

                    a1.sinks=k1 k2
                    a1.channels=c1 c2

                    a1.sources.r1.channels=c1 c2
                ./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

                    ./flume-ng agent --conf ../conf --conf-file ../conf/template.conf --name a1 -Dflume.root.logger=INFO,console

                    ./flume-ng agent --conf ../conf --conf-file ../conf/template9.conf --name a1 -Dflume.root.logger=INFO,console
                    [root@localhost conf]# curl -X POST -d '[{ "headers" :{"flag" : "c"},"body" : "idoall.org_body"}]'
                    [root@localhost conf]# curl -X POST -d '[{ "headers" :{"flag" : "c"},"body" : "idoall.org_body"}]'

    !!!!4.HDFS Sink
        它还通过类似时间戳或机器属性对数据进行 buckets/partitions 操作    It also buckets/partitions data by attributes like timestamp or machine where the event originated.

            !channel    –     
            !type    –    类型名称,必须是“HDFS”
            !hdfs.path    –    HDFS 目录路径 (eg hdfs://namenode/flume/webdata/)
            hdfs.filePrefix    FlumeData    Flume在目录下创建文件的名称前缀
            hdfs.fileSuffix    –    追加到文件的名称后缀 (eg .avro - 注: 日期时间不会自动添加)
            hdfs.inUsePrefix    –    Flume正在处理的文件所加的前缀
            hdfs.inUseSuffix    .tmp    Flume正在处理的文件所加的后缀
            hdfs.rollInterval    30    Number of seconds to wait before rolling current file (0 = never roll based on time interval)
            hdfs.rollSize    1024    File size to trigger roll, in bytes (0: never roll based on file size)
            hdfs.rollCount    10    Number of events written to file before it rolled (0 = never roll based on number of events)
            hdfs.idleTimeout    0    Timeout after which inactive files get closed (0 = disable automatic closing of idle files)
            hdfs.batchSize    100    number of events written to file before it is flushed to HDFS
            hdfs.codeC    –    Compression codec. one of following : gzip, bzip2, lzo, lzop, snappy
            hdfs.fileType    SequenceFile    File format: currently SequenceFile, DataStream or CompressedStream (1)DataStream will not compress output file and please don’t set codeC (2)CompressedStream requires set hdfs.codeC with an available codeC
            hdfs.maxOpenFiles    5000    Allow only this number of open files. If this number is exceeded, the oldest file is closed.
            hdfs.minBlockReplicas    –    Specify minimum number of replicas per HDFS block. If not specified, it comes from the default Hadoop config in the classpath.
            hdfs.writeFormat    –    Format for sequence file records. One of “Text” or “Writable” (the default).
            hdfs.callTimeout    10000    Number of milliseconds allowed for HDFS operations, such as open, write, flush, close. This number should be increased if many HDFS timeout operations are occurring.
            hdfs.threadsPoolSize    10    Number of threads per HDFS sink for HDFS IO ops (open, write, etc.)
            hdfs.rollTimerPoolSize    1    Number of threads per HDFS sink for scheduling timed file rolling
            hdfs.kerberosPrincipal    –    Kerberos user principal for accessing secure HDFS
            hdfs.kerberosKeytab    –    Kerberos keytab for accessing secure HDFS
            hdfs.round    false    时间戳是否向下取整(如果是true,会影响所有基于时间的转移序列,除了%T)
            hdfs.roundValue    1    舍值的边界值
            hdfs.roundUnit    向下舍值的单位 -  second, minute , hour
            hdfs.timeZone    Local Time    Name of the timezone that should be used for resolving the directory path, e.g. America/Los_Angeles.
            hdfs.useLocalTimeStamp    false    Use the local time (instead of the timestamp from the event header) while replacing the escape sequences.
            hdfs.closeTries    0    Number of times the sink must try renaming a file, after initiating a close attempt. If set to 1, this sink will not re-try a failed rename (due to, for example, NameNode or DataNode failure), and may leave the file in an open state with a .tmp extension. If set to 0, the sink will try to rename the file until the file is eventually renamed (there is no limit on the number of times it would try). The file may still remain open if the close call fails but the data will be intact and in this case, the file will be closed only after a Flume restart.
            hdfs.retryInterval    180    Time in seconds between consecutive attempts to close a file. Each close call costs multiple RPC round-trips to the Namenode, so setting this too low can cause a lot of load on the name node. If set to 0 or less, the sink will not attempt to close the file if the first attempt fails, and may leave the file open or with a ”.tmp” extension.
            serializer    TEXT    Other possible options include avro_event or the fully-qualified class name of an implementation of the EventSerializer.Builder interface.


                ./flume-ng agent --conf ../conf --conf-file ../conf/template9.conf --name a1 -Dflume.root.logger=INFO,console    

    5.Hive Sink

    6.Custom Sink    

            type    –    类型,需要指定为自己实现的Sink类的全路径名
    选择器可以工作在 复制 多路复用(路由)模式 下    

            selector.type replicating 类型名称,必须是 replicating 
            selector.optional    –    标志通道为可选
            参看avro sink案例

                selector.type    类型,必须是"multiplexing"
                selector.header    指定要监测的头的名称     
                selector.default    –     
                selector.mapping.*    –
                a1.sources = r1
                a1.channels = c1 c2 c3 c4
                a1.sources.r1.selector.type = multiplexing
                a1.sources.r1.selector.header = state
                a1.sources.r1.selector.mapping.CZ = c1
                a1.sources.r1.selector.mapping.US = c2 c3
                a1.sources.r1.selector.default = c4
                参看 avro sink案例

        处理器 - 实现负载均衡 或 失败恢复 的组件
        需要将若干sink组成一个sink group组
        为sink group 配置processor
        processor可以基于切换 group中的 sink 来实现负载均衡 或 失败恢复。
        sinks    –    用空格分隔的Sink集合
        processor.type    default    类型名称,必须是 default、failover 或 load_balance

    2.Default Sink Processor
        Default Sink Processor 只接受一个 Sink。

    3.Failover Sink Processor
        Failover Sink Processor 维护一个sinks的优先表。确保只要一个是可用的该事件就可以被处理。
        在配置的过程中,设置一个group processor ,并且为每个sink都指定一个优先级。

        sinks    –    Space-separated list of sinks that are participating in the group
        processor.type    default    The component type name, needs to be failover
        processor.priority.<sinkName>    –    Priority value. <sinkName> must be one of the sink instances associated with the current sink group A higher priority value Sink gets activated earlier. A larger absolute value indicates higher priority
        processor.maxpenalty    30000    The maximum backoff period for the failed Sink (in millis)

        Example for agent named a1:
        a1.sinkgroups = g1
        a1.sinkgroups.g1.sinks = k1 k2
        a1.sinkgroups.g1.processor.type = failover
        a1.sinkgroups.g1.processor.priority.k1 = 5
        a1.sinkgroups.g1.processor.priority.k2 = 10
        a1.sinkgroups.g1.processor.maxpenalty = 10000
    4.Load balancing Sink Processor
        Load balancing Sink processor 提供了在多个sink之间实现负载均衡的能力。
        它支持轮询 或 随机方式的负载均衡,默认值是轮询方式,可以通过配置指定。

        !processor.sinks    –    Space-separated list of sinks that are participating in the group
        !processor.type    default    The component type name, needs to be load_balance
        processor.backoff    false    Should failed sinks be backed off exponentially.
        processor.selector    round_robin    Selection mechanism. Must be either round_robin, random or FQCN of custom class that inherits from AbstractSinkSelector
        processor.selector.maxTimeOut    30000    Used by backoff selectors to limit exponential backoff (in milliseconds)

        a1.sinkgroups = g1
        a1.sinkgroups.g1.sinks = k1 k2
        a1.sinkgroups.g1.processor.type = load_balance
        a1.sinkgroups.g1.processor.backoff = true
        a1.sinkgroups.g1.processor.selector = random

9.Interceptors - 拦截器
    1.Timestamp Interceptor

            !type    –    类型名称,必须是timestamp或自定义类的全路径名
            preserveExisting    false    如果时间戳已经存在是否保留

    2.Host Interceptor

            !type    –    类型名称,必须是host
            preserveExisting    false    如果主机名已经存在是否保留
            useIP    true    如果配置为true则用IP,配置为false则用主机名
            hostHeader    host    加入头时使用的名称

    3.Static Interceptor
        如果需要增加多个静态头可以指定多个Static interceptors
            !type    –    类型,必须是static
            preserveExisting    true    如果配置头已经存在是否应该保留
            key    key    要增加的头名
            value    value    要增加的头值

    4.UUID Interceptor

            !type    –    类型名称,必须是org.apache.flume.sink.solr.morphline.UUIDInterceptor$Builder
            headerName    id    头名称
            preserveExisting    true    如果头已经存在,是否保留
            prefix    “”    在UUID前拼接的字符串前缀
    5.Search and Replace Interceptor

            type    –    类型名称,必须是"search_replace"
            searchPattern    –    要搜索和替换的正则表达式
            replaceString    –    要替换为的字符串
            charset    UTF-8    字符集编码,默认utf-8

    6.Regex Filtering Interceptor

        !type    –    类型,必须设定为regex_filter
        regex    ”.*” 所要匹配的正则表达式
        excludeEvents    false    如果是true则刨除匹配的事件,false则包含匹配的事件。

    #7.Regex Extractor Interceptor

            !type    –    类型,必须是regex_extractor
            !regex    –    要匹配的正则表达式
            !serializers    –    Space-separated list of serializers for mapping matches to header names and serializing their values. (See example below) Flume provides built-in support for the following serializers: org.apache.flume.interceptor.RegexExtractorInterceptorPassThroughSerializer org.apache.flume.interceptor.RegexExtractorInterceptorMillisSerializer
            serializers.<s1>.type    default    Must be default (org.apache.flume.interceptor.RegexExtractorInterceptorPassThroughSerializer), org.apache.flume.interceptor.RegexExtractorInterceptorMillisSerializer, or the FQCN of a custom class that implements org.apache.flume.interceptor.RegexExtractorInterceptorSerializer
            serializers.<s1>.name    –     
            serializers.*    –    Serializer-specific properties

        If the Flume event body contained 1:2:3.4foobar5 and the following configuration was used
        a1.sources.r1.interceptors.i1.regex = (\\d):(\\d):(\\d)
        a1.sources.r1.interceptors.i1.serializers = s1 s2 s3
        a1.sources.r1.interceptors.i1.serializers.s1.name = one
        a1.sources.r1.interceptors.i1.serializers.s2.name = two
        a1.sources.r1.interceptors.i1.serializers.s3.name = three

        The extracted event will contain the same body but the following headers will have been added one=>1, two=>2, three=>3
    !!!1.Memory Channel 内存通道

            !type    –    类型,必须是“memory”
            capacity    100    事件存储在信道中的最大数量
            transactionCapacity    100    每个事务中的最大事件数
            keep-alive    3    添加或删除操作的超时时间
            byteCapacityBufferPercentage    20    Defines the percent of buffer between byteCapacity and the estimated total size of all events in the channel, to account for data in headers. See below.
            byteCapacity    see description    Maximum total bytes of memory allowed as a sum of all events in this channel. The implementation only counts the Event body, which is the reason for providing the byteCapacityBufferPercentage configuration parameter as well. Defaults to a computed value equal to 80% of the maximum memory available to the JVM (i.e. 80% of the -Xmx value passed on the command line). Note that if you have multiple memory channels on a single JVM, and they happen to hold the same physical events (i.e. if you are using a replicating channel selector from a single source) then those event sizes may be double-counted for channel byteCapacity purposes. Setting this value to 0 will cause this value to fall back to a hard internal limit of about 200 GB.

    2.JDBC Channel
    !!!3.File Channel
            !type    –    类型,必须是“file”
            checkpointDir    ~/.flume/file-channel/checkpoint    检查点文件存放的位置
            useDualCheckpoints    false    Backup the checkpoint. If this is set to true, backupCheckpointDir must be set
            backupCheckpointDir    –    The directory where the checkpoint is backed up to. This directory must not be the same as the data directories or the checkpoint directory
            dataDirs    ~/.flume/file-channel/data    逗号分隔的目录列表,用以存放日志文件。使用单独的磁盘上的多个目录可以提高文件通道效率。
            transactionCapacity    10000    The maximum size of transaction supported by the channel
            checkpointInterval    30000    Amount of time (in millis) between checkpoints
            maxFileSize    2146435071    一个日志文件的最大尺寸
            minimumRequiredSpace    524288000    Minimum Required free space (in bytes). To avoid data corruption, File Channel stops accepting take/put requests when free space drops below this value
            capacity    1000000    Maximum capacity of the channel
            keep-alive    3    Amount of time (in sec) to wait for a put operation
            use-log-replay-v1    false    Expert: Use old replay logic
            use-fast-replay    false    Expert: Replay without using queue
            checkpointOnClose    true    Controls if a checkpoint is created when the channel is closed. Creating a checkpoint on close speeds up subsequent startup of the file channel by avoiding replay.
            encryption.activeKey    –    Key name used to encrypt new data
            encryption.cipherProvider    –    Cipher provider type, supported types: AESCTRNOPADDING
            encryption.keyProvider    –    Key provider type, supported types: JCEKSFILE
            encryption.keyProvider.keyStoreFile    –    Path to the keystore file
            encrpytion.keyProvider.keyStorePasswordFile    –    Path to the keystore password file
            encryption.keyProvider.keys    –    List of all keys (e.g. history of the activeKey setting)
            encyption.keyProvider.keys.*.passwordFile    –    Path to the optional key password file
    !!!4.Spillable Memory Channel -- 内存溢出通道
        内存存储通过embedded File channel来进行管理。

        !type    –    类型,必须是"SPILLABLEMEMORY"
        memoryCapacity    10000    内存中存储事件的最大值,如果想要禁用内存缓冲区将此值设置为0。
        overflowCapacity    100000000    可以存储在磁盘中的事件数量最大值。设置为0可以禁用磁盘存储。 
        overflowTimeout    3    The number of seconds to wait before enabling disk overflow when memory fills up.
        byteCapacityBufferPercentage    20    Defines the percent of buffer between byteCapacity and the estimated total size of all events in the channel, to account for data in headers. See below.
        byteCapacity    see description    Maximum bytes of memory allowed as a sum of all events in the memory queue. The implementation only counts the Event body, which is the reason for providing the byteCapacityBufferPercentage configuration parameter as well. Defaults to a computed value equal to 80% of the maximum memory available to the JVM (i.e. 80% of the -Xmx value passed on the command line). Note that if you have multiple memory channels on a single JVM, and they happen to hold the same physical events (i.e. if you are using a replicating channel selector from a single source) then those event sizes may be double-counted for channel byteCapacity purposes. Setting this value to 0 will cause this value to fall back to a hard internal limit of about 200 GB.
        avgEventSize    500    Estimated average size of events, in bytes, going into the channel
        <file channel properties>    see file channel    Any file channel property with the exception of ‘keep-alive’ and ‘capacity’ can be used. The keep-alive of file channel is managed by Spillable Memory Channel. Use ‘overflowCapacity’ to set the File channel’s capacity.


            type - 自己实现的Channle类的全路径名称

