数据采集
文章平均质量分 89
本专栏主要存放相关数据采集相关框架内容
Fang GL
力争成为全栈领域,优质创作者!
展开
-
MaxWell原理概述
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。官网地址:http://maxwells-daemon.io/原创 2023-02-28 10:42:02 · 1101 阅读 · 0 评论 -
Flume三种组件的选择对比
将数据发送到kafka消息队列中,这个也是比较常见的,主要针对实时计算场景,数据不落盘,实时传输,最后使用实时计算框架直接处理。 将数据发送到kafka消息队列中,这个也是比较常见的,主要针对实时计算场景,数据不落盘,实时传输,最后使用实时计算框架直接处理。 慢,基于磁盘,但可以优化,有一个索引(在内存中)机制,从随机读写,到指定位置读写,索引也会备份到磁盘中,也可以进行二次备份。1:可能会丢数据,如果Flume的agent挂了,那么channel中的数据就丢失了。原创 2023-02-26 11:13:01 · 1166 阅读 · 0 评论 -
Flume原理概述与配置文件编写说明
本文主要介绍Flume相关的主干内容,特别是对于原理的概述以及配置文件的编写,帮助你理解Flume的工作流程。原创 2022-09-15 17:21:10 · 1005 阅读 · 0 评论 -
全网最全大数据集群环境配置
包含hadoop,flume,kafka,hbase,zookeeper,mysql,tomcat,redis的部署流程,适用于单个环境的安装和项目集群环境的安装。原创 2022-08-20 15:56:53 · 1733 阅读 · 0 评论 -
大数据技术之Azkaban的部署与使用
Azkaban中预置了几个特殊的判断条件,称为预定义宏。预定义宏会根据所有父Job的完成情况进行判断,再决定是否执行。可用的预定义宏如下:(1)all_success: 表示父Job全部成功才执行(默认)(2)all_done:表示父Job全部完成才执行(3)all_failed:表示父Job全部失败才执行(4)one_success:表示父Job至少一个成功才执行(5)one_failed:表示父Job至少一个失败才执行1)案例需求:JobA执行一个shell脚本。原创 2022-09-29 17:14:51 · 1014 阅读 · 1 评论