Dbus介绍、原理、架构
一只奋斗的小强
我想把代码写成诗。
展开
-
Dbus中UMS统一消息格式
无论是增量、全量还是日志,最终输出到结果kafka中的消息都是我们约定的统一消息格式,称为UMS(unified message schema)格式。如下图所示:Protocol 数据的类型,被UMS的版本号 schema namespace 由:类型. 数据源名.schema名 .表名.表版本号. 分库号 .分表号 组成,能够描述所有表。 例如:mysql.db1.schema1.testtable.5.0.0 fields是字段名描述 ums_id_ 消息的唯一id,原创 2020-09-02 16:10:33 · 848 阅读 · 0 评论 -
Dbus中日志类数据源的实现
什么是日志数据?业界日志收集、结构化、分析工具方案很多,例如:Logstash、Filebeat、Flume、Fluentd、Chukwa. scribe、Splunk等,各有所长。在结构化日志这个方面,大多采用配置正则表达式模板:用于提取日志中模式比较固定、通用的部分,例如日志时间、日志类型、行号等。对于真正的和业务比较相关的信息,这边部分是最重要的,称为message部分,我们希望使用可视化的方式来进行结构化。例如:对于下面所示的类log4j的日志:如果用户想将上述数据转换为如下的结构化原创 2020-09-02 16:00:34 · 472 阅读 · 0 评论 -
Dbus数据采集与分发
DBUS主要分为两个部分:貼源数据采集和多租户数据分发。两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发。DBUS主要分为两个部分:貼源数据采集和多租户数据分发。两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发。DBUS源端数据采集DBUS源端数据采集大体来说分为两部分:..原创 2020-09-02 15:30:04 · 716 阅读 · 0 评论 -
Dbus介绍
1 背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致) 由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性) 基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)这些方案都不能算完美,我们在了解和考虑了不同实现方式后,认为要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解原创 2020-09-02 15:13:05 · 1099 阅读 · 0 评论