flume
mas2005
数据挖掘
展开
-
Flume知识要点
1.Flume 的数据流由事件(Event)贯穿始终。2.事件是 Flume 的基本数据单位, 它携带日志数据(字节数组形式)并且携带有头信息,这些 Event 由 Agent 外部的 Source 生成,当 Source 捕获事件后会进行特定的格式化,然后 Source 会把事件推入(单个或多个)Channel 中。3.可以把Channel 看作是一个缓冲区,它将保存事件直到 Sink 处理完该...原创 2018-07-02 17:32:17 · 267 阅读 · 0 评论 -
flume网络端口 收集数据
1、在$FLUME_HOME/agentconf 目录下创建一个数据采集方案,该方案就是从一个网络端口收集数据,也就是创一个任意命名的配置文件如下:netcat-logger.properties文件内容如下:# 定义这个 agent 中各个组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1# 描述和配置 source 组件:r1a1.sources...原创 2018-07-02 19:08:27 · 2352 阅读 · 0 评论 -
flume ----采集 目录到 到 HDFS
案例:采集 目录到 到 HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到 HDFS 中去。根据需求,首先定义以下 3 大要素:数据源组件,即 source ——监控文件目录 : spooldir spooldir 特性: 1、监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2、采集完成的文件,会被 agen...原创 2018-07-02 20:48:03 · 957 阅读 · 0 评论