nginx+flume 数据采集

使用Nginx+Flume进行日志数据采集实战
本文介绍了如何在Ubuntu环境中利用Nginx和Flume进行数据采集。通过配置Nginx服务,创建日志,然后使用Flume收集日志并将其存储到HDFS中,详细讲解了每一步的配置和操作过程,旨在帮助读者掌握大数据平台运维中的日志采集技术。

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计4427字,阅读大概需要3分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
⏰个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

一、 任务描述

本实验任务主要完成基于ubuntu环境使用nginx+flume的工作方式进行数据采集。通过完成本实验任务,要求学生了解并掌握nginx的安装、nginx的基础语法、采集数据方法以及配置格式,为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。

二、 任务目标

掌握flume的应用原理
  掌握nginx+flume对日志信息的采集过程

三、 任务环境

本次环境是:Ubuntu16.04+flume-ng-1.5.0-cdh5.3.6

四、 任务分析

Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理操作,并写到各种storage。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。本试验就是通过学习flume工具实现对指定目录下所有的日志文件数据信息进行采集并实时把采集到的信息保存到hdfs中指定的位置。

♥ 知识链接
Flume拦截器
  已有的拦截器有:
Timestamp Interceptor :在event的header中添加一个key叫:timestamp,value为当前的时间戳。这个拦截器在sink为hdfs 时很有用,后面会举例说到
Host Interceptor:在event的header中添加一个key叫:host,value为当前机器的hostname或者ip。
Static Interceptor:可以在event的header中添加自定义的key和value。
Regex Filtering Interceptor:通过正则来清洗或包含匹配的events。
Regex Extractor Interceptor:通过正则表达式来在header中添加指定的key,value则为正则匹配的部分

五、 任务实施

步骤1、nginx配置

启动nginx服务

在这里插入图片描述

图片1 启动nginx服务
  使用命令进入nginx.conf文件下:vi /etc/nginx/nginx.conf,编辑文件(完整代码如下)

1.	#user  nginx;
2.	worker_processes  1;
3.	
4.	error_log  /var/log/nginx/error.log warn;
5.	pid        /var/run/nginx.pid;
6.	
7.	
8.	events {
   
   
9.	    worker_connections  1024;
10.	}
11.	
12.	
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不懂开发的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值