Flume
我不是李寻欢
百转千折落人间,身披绶带赛玉泉;
婀娜生姿门前客,飞驰化做林中仙.
展开
-
Hive采集数据框架flume
在hadoop的工作流程中,前期的数据采集是很重要的一步,flume在数据采集中的作用显然也是相当重要的.数据来源:日志来源于apache/Nginx 应用服务器的日志 --> HDFS Flume+kafka ---> Storm /Spark Streaming框架配置:Agent --> 每台应用服务器日志的机器 运行一个agents原创 2017-08-08 18:04:50 · 535 阅读 · 0 评论 -
flume框架案例之抽取日志
flume抽取日志文件对于flume的原理其实很容易理解,我们更应该掌握flume的具体使用方法,flume提供了大量内置的Source、Channel和Sink类型。而且不同类型的Source、Channel和Sink可以自由组合—–组合方式基于用户设置的配置文件,非常灵活。比如:Channel可以把事件暂存在内存里,也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, hba原创 2017-08-08 18:28:35 · 939 阅读 · 0 评论 -
flume框架 source简介
① NetCat Source:监听一个指定的网络端口,即只要应用程序向这个端口里面写数据,这个source组件就可以获取到信息。 ②Spooling Directory Source:监听一个指定的目录,即只要应用程序向这个指定的目录中添加新的文 件,source组件就可以获取到该信息,并解析该文件的内容,然后写入到channle。写入完成后,标记该文件已完成或者删除该文原创 2017-08-08 19:19:56 · 431 阅读 · 0 评论 -
flume框架之fan out
===========配置a4.conf文件=========# 给a4.agent配置 sources /channels /sinks (由于输出有两处需要配置两个通道channel和输出槽sinks)a4.sources = r1a4.sinks = k1 k2a4.channels = c1 c2# 这里配置资源的sources的来源,当程序向日志输入命令原创 2017-08-08 19:22:06 · 290 阅读 · 0 评论 -
flume框架案例之抽取文件
======1.配置a3.conf===========a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the source# 源是某个目录使用spooldira3.sources.r3.type = spooldir# 抽取的目录 $ cp -r ${HADOOP_HOM原创 2017-08-08 18:45:26 · 468 阅读 · 0 评论 -
flume框架综合应用(fan in)
需求:需要收集多处文件或者目录数据,最后输出到同一个文件中;思路:有多处的source 那么资源的来源可能不一样,我们可以构建多个Agent;构建多种不同的资源通道,最后这两个Agent输出槽的sink文件再作为到另一个Agent的source输入;======a.Agent====a.sources = r1a.channels = c1a.s原创 2017-08-08 19:33:55 · 248 阅读 · 0 评论 -
flume性能调优
一个flume-ng agent主要包括source,channel和sink三部分,三部分运行在Java JVM中,JVM一般运行在Linux'操作系统上,因此,这些因素都可能影响最终的性能。flume-ng性能优化与架构设计,简单来讲,也主要包括以上部分。1, 主键的参数设计1.1 source的配置有时候不需要每台主机均安装flume agent,可以和sshpass等命转载 2017-08-08 20:47:57 · 5153 阅读 · 0 评论