Flume
文章平均质量分 89
日志采集,聚合和传输工具
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
-
六, Kafka与Flume对接
文章目录Kafka 对接 Flume一, Flume作为生产者1. 启动Kafka集群2. 启动Kafka消费者3. 设置Flume配置文件4. 启动Flume5. Flume采集数据, Kafka消费数据情况二, Flume作为消费者1. 配置Flume2. 启动Flume3. 启动Kafka生产者4. 测试Kafka 对接 FlumeFlume 是一个在大数据开发中非常常用的组件。可以用于 Kafka 的生产者,也可以用于Flume 的消费者。一, Flume作为生产者1. 启动Kafk原创 2022-04-01 23:42:52 · 2074 阅读 · 1 评论 -
五, Flume常见组件类型的用法总结
文章目录零, 官方API一, Source(接收并处理数据)1.1 `exec` 类型的Soruce组件1.2 `netcat`类型的Source组件1.3 `spooldir`类型的Source组件1.4 `taildir`类型的Source组件1.4 `avro`类型的Source组件二, Channel2.1 `memory`类型的Channel组件2.2 `file`类型的Channel组件2.3 `kafka`类型的Channel组件三, Sink3.1 `logger`类型的sink组件3.2原创 2021-10-06 15:00:39 · 589 阅读 · 0 评论 -
四, 通过Ganglia实现监控Flume数据流
一, 什么是Ganglia ?Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。二, Ganglia 的安装和部署对分布式集群的安装前规划主机要安装的内容bigdata01web客原创 2021-10-04 14:43:05 · 494 阅读 · 0 评论 -
三, Flume 进阶下-- Flume自定义拦截器, 自定义Sources, 自定义Sinks
三, Flume 进阶- 自定义拦截器, 自定义Sources, 自定义Sinks3.1 自定义Intercepter拦截器我们结合实际例子了解自定义拦截器和多路复用channel选择器的结合使用.[案例需求]使用Flume 采集服务器本地日志, 我们需要根据日志类型的不同, 将不同种类的日志发往不同的分析系统. 本案例中, 我们以端口数据模拟日志(netcat 发送数据), 以单个数字和单个字母来模拟不同类型的日志.我们需要使用定义intercepter 区分数字和字母, 然后使用多路复用ch原创 2021-10-04 14:35:26 · 563 阅读 · 0 评论 -
二,Flume进阶上--Flume 事务和拓扑结构(串联, 复制和多路复用, 负载均衡或故障转移,聚合)
二, Flume 事务和拓扑结构2.1, Flume事务在Flume工作流程中, 主要有两大事务,分别是在数据接收端Source和数据缓冲区Channel之间的 Put事务(推送)Put事务:doPut: 将批数据写入临时缓冲区putList.doCommit: 检查channel内存队列是否足够合并.doRollback: 当channel内存队列空间不足(sink从channel拉取的数据量小于source放入channel的数据量), 会回滚数据.数据缓冲区Chan原创 2021-10-04 14:20:16 · 408 阅读 · 0 评论 -
一, Flume入门和典型案例实操
Flume(日志收集, 聚合, 传输的工具)一, Flume 概述1. Flume 定义[定义]Flume 是 Cloudera 提供的一个高可用(available)的, 高可靠(reliable), 分布式(distribute)的海量日志采集(collecting), 聚合(aggregating)和传输(moving)的系统.Flume 基于流式架构, 灵活简单.[Why Flume?][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LfMx27dN-原创 2021-08-24 16:52:25 · 510 阅读 · 0 评论