【实验内容】
通过Flume实现网站流量日志数据采集,我们令Source为taildir类型,搭配Channel的memory类型,Sink的hdfs类型进行Flume配置实验。
【实验目的】
1.了解Flume的多种Source、Channel、Sink组合配置,实现多种需求
2.了解Flume的执行原理以及流程
【实验技术/工具清单】
为了保证能顺畅地运行Hadoop集群,并能够进行基本的大数据开发调试,建议个人计算机硬件的最低配置为:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(建议八核及以上)处理器。Hadoop相关软件安装包及其版本说明,Flume 1.9.0。
【实验原理/思路】
Flume的Agent主要是由三个重要的组件组成:分别为Source、Channel、Sink。
(1)Source:完成对日志数据的收集,分成transtion和event导入到Channel之中。
(2)Channel:主要提供一个队列的功能,对Source提供的数据进行简单的缓存。
(3)Sink:取出Channel中的数据,相应的存储到文件系统,数据库,或者提交到远程服务器。
Source、Channel、Sink的组合形式举例:
Source的类型主要有:Exec、Avro、Netcat、Spooldir、 Http 、Syslogtcp 、Seq、Thrift等。
Channel的类型主要有File、 Memory 、JDBC等。
Sink的类型主要有:Null、HDFS、 HBase、 Hive、Thrift、 Avro、Logger等。
【实验步骤】
1. Flume安装配置
2. 配置Flume日志采集组件
3. 创建配置目录,上传配置文件
4. 启动flume
5.查看日志是否正确采集到hdfs指定目录中
【实验记录与结果分析】
实现步骤和执行结果截图。
配置flume环境变量: vi ~/.bash_profile flume基础配置 flume-ng version 2.配置Flume日志采集组件 3.创建配置目录,上传配置文件 mkdir /opt/flume/conf/logs 将日志文件access.log保存到logs目录下 4. 启动flume 5.查看日志是否正确采集到hdfs指定目录中 |