![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flume
Flume从入门到放弃
不温卜火
大数据开发/数据采集/数据清洗/数据分析/数据可视化
关注我!共同学习!!!
展开
-
Flume快速入门系列(11) | Flume知识点总结(持续更新)
这篇文章我们讲解的是Flume常见的面试题,并将会不断进行更新。目录1. 如何实现Flume数据传输的监控的2. Flume的Source,Sink,Channel的作用?你们Source是什么类型?3. Flume的Channel Selectors4. Flume参数调优5. Flume的事务机制6. Flume采集数据会丢失吗?1. 如何实现Flume数据传输的监控的 使用第三...原创 2020-05-15 08:50:52 · 7707 阅读 · 34 评论 -
Flume快速入门系列(10) | 如何自定义MySQLSource
这篇文章我们讲解的是如何自定义MySQLSource。目录1. 自定义Source说明2. 自定义MySQLSource组成3. 自定义MySQLSource步骤4. 代码实现5 测试1. jar包准备2. 配置文件准备3. mysql表准备4. 测试并查看结果1. 自定义Source说明 实时监控MySQL,从MySQL中获取数据传输到HDFS或者其他存储框架,所以此时需要我们自己...原创 2020-05-14 13:10:34 · 7630 阅读 · 15 评论 -
Flume快速入门系列(9) | 如何自定义Sink
这篇文章我们讲解的是如何自定义Sink。目录1. 介绍2. 需求3. 编码4. 测试1. 介绍 Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。 Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flu...原创 2020-05-14 11:05:37 · 7845 阅读 · 8 评论 -
Flume快速入门系列(8) | 如何自定义Source
这篇文章我们讲解的是如何自定义Source。目录1. Source的简单介绍2. 需求/分析3. 编码3.1 导入pom依赖3.2 编写代码4. 测试1. Source的简单介绍 Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netca...原创 2020-05-13 11:13:40 · 8091 阅读 · 32 评论 -
Flume快速入门系列(7) | Flume监控之Ganglia的安装与部署
这篇文章我们讲解的是Flume监控之Ganglia的安装与部署。目录1. Ganglia的安装与部署2. 操作Flume测试监控1. Ganglia的安装与部署 1. 安装httpd服务与php[bigdata@hadoop002 flume]$ sudo yum -y install httpd php 2. 安装其他依赖[bigdata@hadoop002 flum...原创 2020-05-13 08:17:23 · 8192 阅读 · 42 评论 -
Flume快速入门系列(6) | 聚合
此篇博文讲的是Flume的聚合。目录1. 需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume1-logger-flume.conf3. 创建flume2-netcat-flume.conf4. 创建flume3-flume-logger.conf5. 执行配置文件6. 在hadoop003上向/opt/module目录下的group.log追加内容7. 在hadoop002上...原创 2020-05-12 11:47:04 · 8421 阅读 · 35 评论 -
Flume快速入门系列(5) | 负载均衡和故障转移
此篇博文讲的是Flume的负载均衡和故障转移。目录1. 需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume-netcat-flume.conf3. 创建flume-flume-console1.conf4. 创建flume-flume-console2.conf5. 执行配置文件6. 使用netcat工具向本机的44444端口发送内容7. 查看Flume2及Flume3的控制...原创 2020-05-12 10:24:50 · 8583 阅读 · 18 评论 -
Flume快速入门系列(4) | 多路复用
上一篇我们已经介绍了如何实时读取本地/目录文件到HDFS上,那么这一篇文章博主继续为大家介绍如何实时读取本地/目录文件到HDFS上。目录一. 单数据源多出口案例1.1 选择器1. 案例需求2. 需求分析3. 实现步骤1. 准备工作2. 创建flume-file-flume.conf3. 创建flume-flume-hdfs.conf4. 创建flume-flume-dir.conf5. 执行...原创 2020-05-12 08:32:28 · 8634 阅读 · 28 评论 -
Flume快速入门系列(3) | 如何实时读取本地/目录文件到HDFS上
上一篇我们已经简单的介绍了Flume,那么这一篇文章博主继续为大家介绍如何实时读取本地/目录文件到HDFS上。目录一. 实时读取本地文件到HDFS1.1需求:1.2 需求分析1.3 实现步骤1. Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包2. 创建flume-file-hdfs.conf文件3. 执行监控配置4. 开启Hadoop和Hive并操作Hive产生日志5....原创 2020-05-11 12:07:48 · 9487 阅读 · 11 评论 -
Flume快速入门系列(2) | Flume的安装及监控端口实例
上一篇我们已经简单的介绍了Flume,那么这一篇文章博主继续为大家介绍如何安装Flume以及Flume怎样监控端口数据的官方案例。目录1. 安装部署2. 监控端口数据实例2.1 需求2.2 需求分析2.3 实现步骤1. 安装netcat工具2. 判断44444端口是否被占用3. 创建Flume Agent配置文件flume-netcat-logger.conf3. 思考 此部分所需要的...原创 2020-05-11 11:11:51 · 8968 阅读 · 13 评论 -
Flume快速入门系列(1) | Flume的简单介绍
在一个完整的离线大数据处理系统中,除了HDFS+MapReduce+Hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,在此,我们首先来介绍下数据采集部分所用的的开源框架——Flume。目录1. Flume定义2. Flume的优点3. Flume采集系统结构图3.1 简单结构3.2 复杂结构...原创 2020-05-11 09:21:23 · 9014 阅读 · 21 评论