impala&hive大数据平台数据血缘与数据地图(二)-实时采集impala血缘日志推送到kafka​​​​​​​

102 篇文章 11 订阅
23 篇文章 9 订阅


impala数据血缘与数据地图系列:

1. 解析impala与hive的血缘日志

2. 实时采集impala血缘日志推送到kafka

-----------------------------------------实时采集impala血缘日志推送到kafka-----------------------------------------------------

使用filebeat采集impala的血缘日志并推送到kafka
 采用filebeat的主要原因是因为轻量,对impala的血缘日志采集不需要进行数据过滤和格式转换,因此不需要使用flume或logstash这样占用资源较大的工具。

filebeat的安装及使用请参考官方手册:

https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-overview.html

参数配置:

vim conf/filebeat_impala_lineage.yml

#=========================== Filebeat inputs =============================
 
filebeat.inputs:
 
- type: log
 
  # Change to true to enable this input configuration.
  enabled: true
 
  # Paths that should be crawled and fetched. Glob based paths.
  paths:
    #这里指定impala血缘目录,会读取该目录下所有日志
    - /var/log/impalad/lineage/*
#============================= Filebeat modules ===============================
 
filebeat.config.modules:
  # Glob pattern for configuration loading
  path: ${path.config}/modules.d/*.yml
 
  # Set to true to enable config reloading
  reload.enabled: false
 
  # Period on which files under path should be checked for changes
  #reload.period: 10s
 
#===========kafka output===============
output.kafka:
    #指定kafka的节点和topic
  hosts: ["uatka01:9092","uatka02:9092","uatka03:9092"]
 
  topic: wyk_filebeat_impala_lineage_new_demo
 
  required_acks: 1
#output.console:
#  pretty: true
DEMO:
启动filebeat,注意每个机器上只能启动一个filebeat进程,因此上面的读取日志不要指定文件名。

$FILEBEAT_HOME/filebeat --c $FILEBEAT_HOME/conf/filebeat_impala_lineage.yml -e

 

 

 

启动kafka consumer:

./kafka-console-consumer.sh --bootstrap-server uatka01:9092,uatka02:9092,uatka03:9092 --topic wyk_filebeat_impala_lineage_new_demo --zookeeper uatka01:2181,uatka02:2181,uatka03:2181

启动impala-shell:

impala-shell -i uathd03

1. 在impala-shell内建一个视图:vw_lineage_test11

 2.查看impala lineage 日志文件,血缘已记录日志:

3. 查看filebeat控制台,已监听日志文件并写入kafka topic内:

4. 查看kafka consumer是否消费到该血缘记录:

 

流程结束:
impalaSQL--> impala血缘日志-->Filebeat-->Kafka

完成监控impala脚本并将血缘日志推送到kafka内。

后续只需要实时消费kafka里的信息即可。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值