flume监控spoolDir日志到HDFS（从日志产生到hdfs上一整套）

最新推荐文章于 2024-08-08 08:14:30 发布

l_lushuang

最新推荐文章于 2024-08-08 08:14:30 发布

阅读量2.5k

点赞数

分类专栏： Hadoop-flume 文章标签： hadoop flume 日志 hdfs

Hadoop-flume 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

原博客地址：http://www.2cto.com/kf/201612/555835.html

1.编写java代码，随机生成用户ID号码，区县号码，乡镇号码(区县和乡镇号码用随机的三位字母表示)和个人总收入格式样例：779362a1-bf04-468a-91b6-a19d772f41fa####AFC####sfe####8091748。

2.用一个线程循环执行,用Thread.sleep(100)来控制线程执行一次停止100ms，防止cpu在死循环中过载，一秒生成10条数据，用log4j生成相应的日志到指定的目录下面，其中日志每分钟就生成一个格式为yyyy-MM-dd-HH-mm 例如：service.log.2016-10-13-11-32，最后在linux下用shell脚本启动这个java程序。

3.编写shell脚本，定时每分钟从log4j生成的脚本copy当前时间前一分钟产生的日志文件到被flume监控的文件夹内，注意copy过去应该在文件名后面加上.COMPLETED，copy完成后又把这个文件名的.COMPLETED去掉。
例如：

1

2

3

4

5

 
        #首先 
       
 
        cp ./log4j/service.log. 
        2016 
        - 
        10 
        - 
        13 
        - 
        11 
        - 
        37 
         ./monitor/service.log. 
        2016 
        - 
        10 
        - 
        13 
        - 
        11 
        - 
        37 
        .COMPLETED 
       

           
       
 
        #然后 
       
 
        mv ./monitor/service.log. 
        2016 
        - 
        10 
        - 
        13 
        - 
        11 
        - 
        37 
        .COMPLETED ./monitor/service.log. 
        2016 
        - 
        10 
        - 
        13 
        - 
        11 
        - 
        37 
       

主要是防止源日志文件太大copy的时候会花比较长的时间，到时候flume会抛异常，当然你还可以使用另外一种解决方案：直接move源日志文件到被flume监控的目录中，不过这种方案没有上面的方案优。

4.配置flume的conf文件

5.编辑crontab每分钟执行这个脚本来拉取源日志文件。

环境：
1.使用的虚拟机为:vmware12
2.centOS6.5
3.hadoop2.2.0 单节点（主要测试用，所以直接用的单节点）
4.Flume 1.6.0 （刚开始用的flume-ng-1.5.0-cdh5.4.5，结果配置中的一个方法在这个版本的flume包里找不到抛异常，就换了个版本搞定）
这里写图片描述

java代码如下:
其中需要配置log4j配置文件，以及添加log4j的依赖jar包

 
        package 
         com.lijie.test; 
       
        import 
         java.util.UUID; 
       
        import 
         org.apache.log4j.Logger; 
       
        public 
         class 
         DataProduct { 
       
        public 
         static 
         void 
         main(String[] args) { 
       
        Thread t1 =  
        new 
         Thread( 
        new 
         A()); 
       
        t1.start(); 
       
        } 
       
        } 
       
        class 
         A  
        extends 
         Thread { 
       
        private 
         final 
         Logger log = Logger.getLogger(A. 
        class 
        ); 
       
        public 
         void 
         run() { 
       
        //无限循环 
       
        while 
         ( 
        true 
        ) { 
       
        //随机产生一个用户uuid 
       
        UUID userId = UUID.randomUUID(); 
       
        //产生一个随机的用户总资产 
       
        int 
         num = ( 
        int 
        ) (Math.random() *  
        10000000 
        ) +  
        100000 
        ; 
       
        //产生一个随意的县名 
       
        StringBuilder sb =  
        new 
         StringBuilder(); 
       
        for 
         ( 
        int 
         i =  
        0 
        ; i <  
        3 
        ; i++) { 
       
        char 
         a = ( 
        char 
        ) (Math.random() * ( 
        90 
         -  
        65 
        ) +  
        65 
        ); 
       
        sb.append(a); 
       
        } 
       
        String xian = sb.toString(); 
       
        //产生一个随机的镇名 
       
        StringBuilder sb1 =  
        new 
         StringBuilder(); 
       
        for 
         ( 
        int 
         i =  
        0 
        ; i <  
        3 
        ; i++) { 
       
        char 
         a = ( 
        char 
        ) (Math.random() * ( 
        122 
         -  
        97 
        ) +  
        97 
        ); 
       
        sb1.append(a); 
       
        } 
       
        String zhen = sb1.toString(); 
       
        //生成日志 
       
        log.info(userId +  
        "####" 
         + xian +  
        "####" 
         + zhen +  
        "####" 
         + num); 
       
        //停0.1秒钟 
       
        try 
         { 
       
        Thread.sleep( 
        100 
        ); 
       
        }  
        catch 
         (InterruptedException e) { 
       
        e.printStackTrace(); 
       
        } 
       
        } 
       
        } 
       
        }

log4j的配置文件：

 
        log4j.rootCategory=INFO, stdout , R 
       
        log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
       
        log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
       
        log4j.appender.stdout.layout.ConversionPattern=%d %p [%t] %C.%M(%L) | %m%n 
       
        log4j.appender.R=org.apache.log4j.DailyRollingFileAppender 
       
        log4j.appender.R.File=/home/hadoop/log4j/service.log 
       
        log4j.appender.R.DatePattern =  
        '.' 
        yyyy-MM-dd-HH-mm 
       
        log4j.appender.R.layout=org.apache.log4j.PatternLayout 
       
        log4j.appender.R.layout.ConversionPattern=%d %p [%t] %C.%M(%L) | %m%n 
       
        log4j.logger.com.xxx=DEBUG 
       
        log4j.logger.controllers=DEBUG 
       
        log4j.logger.vo=DEBUG 
       
        log4j.logger.notifiers=DEBUG 
       
        log4j.logger.com.opensymphony.oscache=WARN 
       
        log4j.logger.net.sf.navigator=WARN 
       
        log4j.logger.org.apache.commons=WARN 
       
        log4j.logger.org.apache.struts=WARN 
       
        log4j.logger.org.displaytag=WARN 
       
        log4j.logger.org.springframework=WARN 
       
        log4j.logger.org.apache.velocity=FATAL

启动java程序的shell脚本 start.sh

 
        APP_HOME=/home/hadoop/myjar 
       
        APP_CLASSPATH=$APP_HOME/bin 
       
        jarList=$(ls $APP_CLASSPATH|grep jar) 
       
        echo $jarList 
       
        for 
         i in $jarList 
       
        do 
       
        APP_CLASSPATH= 
        "$APP_CLASSPATH/$i" 
        : 
       
        done 
       
        echo $APP_CLASSPATH 
       
        export CLASSPATH=$CLASSPATH:$APP_CLASSPATH 
       
        echo $CLASSPATH 
       
        java -Xms50m -Xmx250m com.lijie.test.DataProduct 
       
        echo Linux Test End

定时拉取源日志的shell脚本 mvlog.sh

 
        #! /bin/bash 
       
        DIR=$(cd `dirname $ 
        0 
        `; pwd) 
       
        mydate=`date +%Y-%m-%d-%H-%M -d   
        '-1 minutes' 
        ` 
       
        logName= 
        "service.log" 
       
        monitorDir= 
        "/home/hadoop/monitor/" 
       
        filePath= 
        "${DIR}" 
        /log4j/ 
        "" 
       
        fileName= 
        "${logName}" 
        "." 
        "${mydate}" 
       
        echo  
        "文件地址:${filePath}" 
       
        echo  
        "文件名字:${fileName}" 
       
        if 
         [ -f  
        "${monitorDir}" 
        "${fileName}" 
         ] 
       
        then 
       
        echo  
        "文件存在，删除文件" 
       
        rm -rf  
        "${monitorDir}" 
        "${fileName}" 
       
        fi 
       
        echo  
        "开始复制文件" 
       
        cp  
        "${filePath}${fileName}" 
         "${monitorDir}${fileName}" 
        ".COMPLETED" 
       
        echo  
        "日志复制完成，更改名字" 
       
        mv  
        "${monitorDir}${fileName}" 
        ".COMPLETED" 
         "${monitorDir}${fileName}" 
       
        echo  
        "日志改名完成" 
       
        exit

flume的配置文件:

 
        #agent名， source、channel、sink的名称 
       
        a1.sources = r1 
       
        a1.channels = c1 
       
        a1.sinks = k1 
       
        #具体定义source 
       
        a1.sources.r1.type = spooldir 
       
        a1.sources.r1.spoolDir = /home/hadoop/monitor 
       
        #具体定义channel 
       
        a1.channels.c1.type = memory 
       
        a1.channels.c1.capacity =  
        10000 
       
        a1.channels.c1.transactionCapacity =  
        100 
       
        #具体定义sink 
       
        a1.sinks.k1.type = hdfs 
       
        a1.sinks.k1.hdfs.path = hdfs: 
        //192.168.80.123:9000/flume/%Y%m%d 
       
        a1.sinks.k1.hdfs.filePrefix = events- 
       
        a1.sinks.k1.hdfs.fileType = DataStream 
       
        a1.sinks.k1.hdfs.useLocalTimeStamp =  
        true 
       
        #不按照条数生成文件 
       
        a1.sinks.k1.hdfs.rollCount =  
        0 
       
        #HDFS上的文件达到128M时生成一个文件 
       
        a1.sinks.k1.hdfs.rollSize =  
        134217728 
       
        #HDFS上的文件达到 
        60 
        秒生成一个文件 
       
        a1.sinks.k1.hdfs.rollInterval =  
        60 
       
        #组装source、channel、sink 
       
        a1.sources.r1.channels = c1 
       
        a1.sinks.k1.channel = c1

启动flume的命令：

1	`../bin/flume-ng agent -n a1 -c conf -f ./flume-conf.properties -Dflume.root.logger=DEBUG,console`

crontab的配置

1

2

3

4

5

 
        #首先crontab -e编辑下面的代码然后保存 
       
        * * * * * sh /home/hadoop/mvlog.sh 
       
        #然后启动crontab服务 
       
        service crond start

准备工作进行好之后，执行java程序
sh ./start.sh

产生如下日志文件: