Flume
kingloneye
微信联系方式:kxswx001
展开
-
基于Spark Streaming & Flume & Kafka打造通用流处理基础
思路: 1、整合日志输出到Flume 2、整合Flume到Kafka 3、整合Kafka到Spark Streaming 4、Spark Streaming对接收到的数据进行处理 首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streami原创 2020-06-23 15:29:25 · 225 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
Spark Streaming整合Flume的两种方式 整合方式一:基于推 1、flume和spark一个work节点要在同一台机器上,flume会在本机器上通过配置的端口推送数据 2、streaming应用必须先启动,receive必须要先监听推送数据的端口后,flume才能推送数据 a、pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst原创 2020-06-18 23:19:56 · 266 阅读 · 0 评论 -
Flume应用案例之整合Flume 和 kafka完成实时数据采集
一、需求:整合Flume 和 kafka完成实时数据采集 说明:如下图 机器Agent1对应本人hadoop01虚拟机, 机器Agent2对应本人hadoop02虚拟机 1、机器Agent1监控日志文件,向机器Agent1中输入数据 2、avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上 3、通过avro source对应的agent2将日志输出到kafka(生产者) 4、由kafka consumer(消费者输出数据) 二、技术选型: 1、jdk1.原创 2020-06-14 16:01:18 · 428 阅读 · 0 评论 -
Flume应用案例之两台服务器之间进行实时数据采集
需求:将A服务器上的日志实时采集到B服务器 说明:如下图 机器A对应本人hadoop01虚拟机, 机器B对应本人hadoop02虚拟机 机器A监控日志文件,向机器A中输入数据,avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上,通过avro source对应的agent将日志输出到控制台(kafka) 技术选型: exec source + memory channel + avro sink (配置在机器A/hadoop01上) avro sour原创 2020-06-13 18:23:26 · 698 阅读 · 0 评论 -
Flume监控一个文件实时采集新增的数据输出到控制台
1、 配置Flume 文件 Agent选型: exec source + memory channel + logger sink vim exec-memory-logger.conf #定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 #描述和配置source组件:r1 a1.sources.r1.type = exec a1.sources.r1.command = tail -f /opt/bigdatas/flume原创 2020-06-13 16:18:01 · 1765 阅读 · 0 评论 -
Flume安装部署
1、下载Flume 官网 本人安装环境: jdk1.8 apache-flume-1.9.0-bin.tar.gz 2、解压安装包并设置环境变量 cd /opt tar -zxvf apache-flume-1.9.0-bin.tar.gz vim /etc/profile #flume export FLUME_HOME=/opt/apache-flume-1.9.0-bin export PATH=$FLUME_HOME/bin:$PATH source /etc/profile echo $FLU原创 2020-06-13 15:49:02 · 126 阅读 · 0 评论