日志采集框架Flume
依旧ฅ=ฅ
想去的地方很远 想买的东西很贵 想守护的东西很美好 所以选择努力
展开
-
【flume】导出的文件乱码问题、中文乱码、表头乱码
导出结果 解决方式: 在网上搜的都是添加 a1.sinks.k1.hdfs.fileType = DataStream a1.sinks.k1.hdfs.writeFormat = Text 这个是要加的,flume导出的数据格式默认是SequenceFile 这个我是加了的就还是上边的乱码啊 检查输入的文件格式,输入的文件格式改成utf-8就好了,输出文件不会乱码了 检查、修改文件格式方式 用记事本打开右下角是当前文件的编码格式 文件->另存为->编码->ut原创 2020-12-23 09:57:09 · 6455 阅读 · 0 评论 -
flume过滤器
1、案例场景 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求: 把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 但是在hdfs中要求的目录为: /source/logs/access/20180101/** /source/logs/nginx/2...原创 2020-01-03 18:02:31 · 4604 阅读 · 0 评论 -
flume的负载均衡load balancer
负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能,如下图Agent1 是一个路由节点,负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上,而每个 Sink 组件分别连接到一个独立的 Agent 上,示例配置,如下所示: 在此处我们通过三台...原创 2020-01-03 17:59:33 · 3703 阅读 · 0 评论 -
高可用Flum-NG配置案例failover(故障恢复)
图中,我们可以看出,Flume的存储可以支持多种,这里只列举了HDFS和Kafka(如:存储最新的一周日志,并给Storm系统提供实时日志流)。 1、角色分配 Flume的Agent和Collector分布如下表所示: 名称 HOST 角色 Agent1 node01 ...原创 2020-01-03 17:56:56 · 3767 阅读 · 0 评论 -
Flume实战案例(Flume接受telent数据,采集目录到HDFS、采集文件到HDFS、两个agent级联)
一、Flume接受telent数据 第一步:开发配置文件 vim/export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf/netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件:r1 a...原创 2019-12-08 00:03:27 · 4016 阅读 · 0 评论 -
Flume介绍
在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 日志采集框架Flume Flume介绍 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket...原创 2019-12-08 00:02:09 · 3669 阅读 · 0 评论