![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
flume
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
-
flume采集数据
今天写了一个flume的配置文件采集日志文件(json格式),将日志文件采集到kafka,结果在kafkatools工具中发现采集的每一条数据前面都多出了两个字节的乱码,显然后面的操作都是以json格式进行处理,数据被阻塞在kafka中。后来进行了反复检查,发现问题还是出现在flume配置文件中。。。。。。。。。。。。在这里配置是否以event格式写入kafka时,多加了kafka,flume读取数据时还是以默认设置以event格式读入数据,结果event中的header信息保存到kafka后变成了乱原创 2020-12-10 11:49:09 · 631 阅读 · 0 评论 -
Hive之自定义拦截器
Hive之自定义拦截器一、概述1)案例需求使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2)需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个Interceptor,为不同类型的e原创 2020-12-03 10:52:33 · 338 阅读 · 0 评论 -
Flume自定义Sink数据至MySQL
Flume自定义Sink数据至MySQL一、介绍Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。Sink组件目的地包括hdfs、logger、原创 2020-12-03 10:00:46 · 802 阅读 · 0 评论 -
Flume数据流监控之Ganglia的安装与部署
Flume数据流监控之Ganglia的安装与部署一、Ganglia的安装与部署1)三台机器安装epel源[hadoop@hadoop102 flume]$ sudo yum install -y epel-release2) 在102安装web,meta和monitor[hadoop@hadoop102 flume]$ sudo yum -y install ganglia-gmetad ganglia-web ganglia-gmond3) 在103、104安装monitor[hadoo原创 2020-12-10 16:17:35 · 158 阅读 · 0 评论 -
Flume常用Source与Sink类型及参数
Flume常用Source与Sink类型及参数一、Sourcenetcat tcp source【监听端口数据】常用属性: type: netcat bind: 监听哪个主机 port: 监听哪个端口exec source【监听单个追加文件】常用属性: type: exec command: tail -F 文件路径 batchSize: 定义每批次采集多少数据, 必须<=事务容量大小 exec source的缺点:exec的tail原创 2020-12-03 09:19:24 · 2644 阅读 · 0 评论 -
大数据之Flume数据采集框架
一、Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘数据,将数据写入到HDFS,也可以将数据传送给Kafuka、spark等框架进行数据分析处理。1.2 Flume基础架构Flume组成架构如下图所示。1.2.1 AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分原创 2020-12-01 18:18:11 · 1471 阅读 · 0 评论