Flume
Cheengvho
这个作者很懒,什么都没留下…
展开
-
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。(以Kafka在两个文件中分别作为Source和Sink)
kafka-in.conf文件(在/etc/flume-ng/conf文件夹下)#文件从本地路径到kafka配置文件##-----------------------------## 指定Agent的组件名称agent1.sources = file_sourceagent1.sinks = kafka_sinkagent1.channels = mem_channel#---...原创 2018-07-20 09:57:47 · 1546 阅读 · 1 评论 -
Flume根据文件中每行开始的日期进行文件夹分类导入HDFS
这里使用Flume只需要创建一个新的flume配置文件就可以了,我这里将配置文件取名为access_hdfs.properties,下面是配置文件内容:#-----------------access_hdfs.properties---------------##--------------------Edit by Cheengvho-----------------#agent1....原创 2018-07-20 13:32:39 · 2641 阅读 · 0 评论 -
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS--使用kafka作为channel
作为前面两篇文章的整合,并使用kafka作为channel:1、Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。地址:https://blog.csdn.net/m0_37890482/article/details/81126522#0-qzone-1-10214-d020d2d2a4e8d1a374a433f596ad14402、Flume根据文件中每行...原创 2018-07-20 14:00:19 · 3400 阅读 · 0 评论 -
Flume从脱机目录(Spooldir)获取文件到HDFS
Source为本地的 /flume/weblogs_spooldir,里面存储有大量的log文件。Channel为memory。Sink为HDFS,设置为文件大小滚动。 配置文件(configuration):agent.sources = source_spoolagent.sinks = sink_hdfsagent.channels = channel_memory...原创 2018-08-10 14:25:47 · 767 阅读 · 0 评论 -
Flume将日志log文件从本地导入Kafka_channel,再存储到HDFS。
作为前一篇的修改版,取出来kafka-in.conf文件中的sink和kafka-out.conf文件中的source。前一篇链接:https://blog.csdn.net/m0_37890482/article/details/81130840以下配置文件都存储于 /etc/flume-ng/conf/ 下面kafka-in.conf#--------文件从本地路径到kafk...原创 2018-08-15 11:39:42 · 650 阅读 · 0 评论 -
Kafka、Morphline、Hive的配合使用过滤并格式化日志数据
目录日志数据 创建并编写2个Flume配置文件:kafka_morphline_in.conf、kafka_morphline_out.conf 在Flume配置文件存放的同目录下创建并编写Morphline配置文件:morphline.conf 启动Zookeeper 启动Kafka 以kafka_morphline_out.conf配置文件agent2启动Flume 以kafk...原创 2018-08-20 10:19:08 · 751 阅读 · 0 评论 -
Flume的Sink配置为HDFS的相关参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channel typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使...转载 2018-08-27 14:22:14 · 468 阅读 · 0 评论