![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flume
kingloneye
相信会更好!
展开
-
基于Spark Streaming & Flume & Kafka打造通用流处理基础
思路:1、整合日志输出到Flume2、整合Flume到Kafka3、整合Kafka到Spark Streaming4、Spark Streaming对接收到的数据进行处理首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streami原创 2020-06-23 15:29:25 · 191 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
Spark Streaming整合Flume的两种方式整合方式一:基于推1、flume和spark一个work节点要在同一台机器上,flume会在本机器上通过配置的端口推送数据2、streaming应用必须先启动,receive必须要先监听推送数据的端口后,flume才能推送数据a、pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst原创 2020-06-18 23:19:56 · 249 阅读 · 0 评论 -
Flume应用案例之整合Flume 和 kafka完成实时数据采集
一、需求:整合Flume 和 kafka完成实时数据采集说明:如下图机器Agent1对应本人hadoop01虚拟机,机器Agent2对应本人hadoop02虚拟机1、机器Agent1监控日志文件,向机器Agent1中输入数据2、avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上3、通过avro source对应的agent2将日志输出到kafka(生产者)4、由kafka consumer(消费者输出数据)二、技术选型:1、jdk1.原创 2020-06-14 16:01:18 · 406 阅读 · 0 评论 -
Flume应用案例之两台服务器之间进行实时数据采集
需求:将A服务器上的日志实时采集到B服务器说明:如下图机器A对应本人hadoop01虚拟机,机器B对应本人hadoop02虚拟机机器A监控日志文件,向机器A中输入数据,avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上,通过avro source对应的agent将日志输出到控制台(kafka)技术选型:exec source + memory channel + avro sink (配置在机器A/hadoop01上)avro sour原创 2020-06-13 18:23:26 · 654 阅读 · 0 评论 -
Flume监控一个文件实时采集新增的数据输出到控制台
1、 配置Flume 文件Agent选型: exec source + memory channel + logger sinkvim exec-memory-logger.conf#定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1#描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -f /opt/bigdatas/flume原创 2020-06-13 16:18:01 · 1697 阅读 · 0 评论 -
Flume安装部署
1、下载Flume官网本人安装环境:jdk1.8apache-flume-1.9.0-bin.tar.gz2、解压安装包并设置环境变量cd /opttar -zxvf apache-flume-1.9.0-bin.tar.gzvim /etc/profile#flumeexport FLUME_HOME=/opt/apache-flume-1.9.0-binexport PATH=$FLUME_HOME/bin:$PATHsource /etc/profileecho $FLU原创 2020-06-13 15:49:02 · 110 阅读 · 0 评论