Flume日志采集框架(1)

Flume 介绍

1:概述

Flume 是 Cloudera 提供的一个分布式、高可靠、和高可用的海量日志采集、聚合和传输系统。

Flume 可以采集文件,socket 数据包、文件夹等各种形式源数据,又可以将采集到的数据输出到 HDFS、hbase、hive、kafka 等众多外部存储系统中。

一般的采集需求,通过对 flume 的简单配置即可实现。

Flume 针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。

 

2:运行机制

Flume 分布式系统中最核心的角色是 agent ,flume 采集系统就是由一个个 agent 所连接起来形成的。

每一个 agent 相当于一个数据传递员,内部有三个组件:

           a) Source:采集源,用于跟数据源对接,以获取数据。

           b) Sink:下沉地,采集数据的传送目的,用于下一级 agent 传递数据或者往最终存储系统传递数据

           c) Channel:angent 内部的数据传输通道,用于从 source 将数据传递到 sink。

 

3:复杂结构

多级 agent 之间串联

(1) 第一种:2个 agent 串联

(2) 第二种:多个 agent 的采集的数据进行汇总

(3)第三种:采集的数据可以下层到不同的系统中


Flume 实战案例

1:Flume 的安装部署

a) Flume 的安装非常简单,只需要解压即可,当然,前提是已有 hadoop 环境上传安装包到数据元所有在节点上

b) 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz

c) 进入 flume 的目录,修改 conf 下的 flume-enc.sh ,在里面配置 JAVA_HOME

根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)

指定采集方案配置文件,在相应的节点上启动 flume agent

 

2:简单案例

a) 现在 flume 的 conf 目录下新建一个文件

vi netcat-logger.conf

# 定义这个agent中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 描述和配置source组件:r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop01
a1.sources.r1.port = 44444

# 描述和配置sink组件:k1
a1.sinks.k1.type = logger

# 描述和配置channel组件,此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 描述和配置source  channel   sink之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2、启动agent去采集数据
bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console

b) 启动 agent 去采集数据

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console

-c conf 指定flume 自身的配置文件所在目录

-f conf/netcat-logger.con 指定我们所描述的采集方案

-n a1 指定我们这个 agent 的名字

3:测试

先要往 agent 采集监听的端口上发送数据,让 agent 有数据可采,随便在一个能跟 agent 节点联网的机器上

telnet anget-hostname  port   (telnet itcast01 44444) 

 

Source 组件

Source类型说明
Avro Source支持 Avro 协议(实际上是 Avro RPC),内置支持。
Exec Source基于 Unix 的 command 的标准输出上生产数据
Spooling Directory Source监控指定目录内数据变更。
Netcat Source监控某个端口,将流经端口的每一个文本行数据作为 Event 输入。
Thrift Source支持 Thrift 协议,内置支持。
JMS Source从 JMS 系统(消息、主题)中读取数据,ActiveMQ 已经测试过。
Sequence Generator Source 序列生成器数据源,生产序列数据。
Syslog Source读取 syslog 数据,产生 Event ,支持 UDP 和 TPC 两种协议。
HTTP Source基于 HTTP POST 或 GET 方式的数据源,支持 JSON、BLOB 表现形式。
Legacy Source兼容老的 Flume OG 中的 Source (0.9.x版本)。

Channel 组件

Channel类型说明
Memory ChannelEvent 数据存储在内存中。
File ChannelEvent 数据存储在磁盘文件中。
JDBC ChannelEvent 数据存储在持久化存储中,当前 Flume Channel 内置支持 Derby数据库。
Spillable Memory ChannelEvent 数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件。
Pseudo Transaction Channel测试用途
Custom Channel自定义 Channel 实现。

Sink 组件

Sink 类型说明
HDFS Sink数据写入 HDFS。
Avro Sink 数据被转换成 Avro Event,然后发送到配置的 RPC 端口上。
Thrift Sink数据被转换成 Thrift Event,然后发送到配置的 RPC 端口上。
IRC Sink数据在 IRC 上进行回放。
File Roll Sink存储数据到本地文件系统。
Null Sink丢弃到所有数据。
HBase Sink数据写入到 HBase 数据库。
Morphline Solr Sink数据发送到 Solr 搜索服务器。
ElasticSearch Sink数据发送到 Elastic Search 搜索服务器(集群)
Custom Sink自定义 Sink 实现

Flume 支持众多的 source 、 channel 、 sink 类型,详细手册可参考官方文档 http://flume.apache.org/FlumeUserGuide.html

使用优化算法,以优化VMD算法的惩罚因子惩罚因子 (α) 和分解层数 (K)。 1、将量子粒子群优化(QPSO)算法与变分模态分解(VMD)算法结合 VMD算法背景: VMD算法是一种自适应信号分解算法,主要用于分解信号为不同频率带宽的模态。 VMD的关键参数包括: 惩罚因子 α:控制带宽的限制。 分解层数 K:决定分解出的模态数。 QPSO算法背景: 量子粒子群优化(QPSO)是一种基于粒子群优化(PSO)的一种改进算法,通过量子行为模型增强全局搜索能力。 QPSO通过粒子的量子行为使其在搜索空间中不受位置限制,从而提高算法的收敛速度与全局优化能力。 任务: 使用QPSO优化VMD中的惩罚因子 α 和分解层数 K,以获得信号分解的最佳效果。 计划: 定义适应度函数:适应度函数根据VMD分解的效果来定义,通常使用重构信号的误差(例如均方误差、交叉熵等)来衡量分解的质量。 初始化QPSO粒子:定义粒子的位置和速度,表示 α 和 K 两个参数。初始化时需要在一个合理的范围内为每个粒子分配初始位置。 执行VMD分解:对每一组 α 和 K 参数,运行VMD算法分解信号。 更新QPSO粒子:使用QPSO算法更新粒子的状态,根据适应度函数调整粒子的搜索方向和位置。 迭代求解:重复QPSO的粒子更新步骤,直到满足终止条件(如适应度函数达到设定阈值,或最大迭代次数)。 输出优化结果:最终,QPSO算法会返回一个优化的 α 和 K,从而使VMD分解效果最佳。 2、将极光粒子(PLO)算法与变分模态分解(VMD)算法结合 PLO的优点与适用性 强大的全局搜索能力:PLO通过模拟极光粒子的运动,能够更高效地探索复杂的多峰优化问题,避免陷入局部最优。 鲁棒性强:PLO在面对高维、多模态问题时有较好的适应性,因此适合海上风电时间序列这种非线性、多噪声的数据。 应用场景:PLO适合用于优化VMD参数(α 和 K),并将其用于风电时间序列的预测任务。 进一步优化的建议 a. 实现更细致的PLO更新策略,优化极光粒子的运动模型。 b. 将PLO优化后的VMD应用于真实的海上风电数据,结合LSTM或XGBoost等模型进行风电功率预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值