通过Flume实现网站流量日志数据采集

【实验内容】

    通过Flume实现网站流量日志数据采集,我们令Source为taildir类型,搭配Channel的memory类型,Sink的hdfs类型进行Flume配置实验。

【实验目的】

1.了解Flume的多种Source、Channel、Sink组合配置,实现多种需求

2.了解Flume的执行原理以及流程

实验技术/工具清单

为了保证能顺畅地运行Hadoop集群,并能够进行基本的大数据开发调试,建议个人计算机硬件的最低配置为:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(建议八核及以上)处理器。Hadoop相关软件安装包及其版本说明,Flume 1.9.0。

【实验原理/思路】

     FlumeAgent主要是由三个重要的组件组成:分别为SourceChannelSink

    1Source:完成对日志数据的收集,分成transtionevent导入到Channel之中。

    2Channel:主要提供一个队列的功能,对Source提供的数据进行简单的缓存。

    3Sink:取出Channel中的数据,相应的存储到文件系统,数据库,或者提交到远程服务器。

    SourceChannelSink的组合形式举例:

    Source的类型主要有:ExecAvroNetcatSpooldir Http Syslogtcp SeqThrift等。

Channel的类型主要有File Memory JDBC等。

 Sink的类型主要有:NullHDFS HBase HiveThrift AvroLogger等。

【实验步骤】

        1. Flume安装配置

        2. 配置Flume日志采集组件

        3. 创建配置目录,上传配置文件

        4. 启动flume

        5.查看日志是否正确采集到hdfs指定目录中

【实验记录与结果分析】

        实现步骤和执行结果截图。

  1. Flume安装配置

        配置flume环境变量:

        vi ~/.bash_profile

        flume基础配置

        flume-ng version

        2.配置Flume日志采集组件

        3.创建配置目录,上传配置文件

        mkdir  /opt/flume/conf/logs

        将日志文件access.log保存到logs目录下

        4. 启动flume

        5.查看日志是否正确采集到hdfs指定目录中 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值