实时数仓
文章平均质量分 62
bigdata_wangzhe
这个作者很懒,什么都没留下…
展开
-
同步数据CDC之debezium
Debezium架构 Debezium是一个捕获数据更改(CDC)平台,并且利用Kafka和Kafka Connect实现了自己的持久性、可靠性和容错性。每一个部署在Kafka Connect分布式的、可扩展的、容错性的服务中的connector监控一个上游数据库服务器,捕获所有的数据库更改,然后记录到一个或者多个Kafka topic(通常一个数据库表对应一个kafka topic)。Kafka确保所有这些数据更改事件都能够多副本并且总体上有序(Kafka只能保证一个topic的单个分区内有序),这样,更原创 2021-03-27 10:30:55 · 429 阅读 · 0 评论 -
flink实时数仓(二)之dwd层
我们这里从kafka的ods层读取用户行为日志以及业务数据,并进行简单处理,写回到kafka作为dwd层。 每层的职能 分层 数据描述 生成计算工具 存储媒介 ODS 原始数据,日志和业务数据 日志服务器, maxwell kafka DWD 根据数据对象为单位进行分流,比如订单、页面访问等等。 FLINK kafka DWM 对于部分数据对象进行进一步加工,比如独立访问、跳出行为。依旧是明细数据。 FLINK DIM 维度数据 FLINK HBase DWS 根据某个维度原创 2021-03-24 23:56:59 · 853 阅读 · 3 评论 -
实时计算flink之运行架构
Flink 运行时的组件 作业管理器(JobManager) 控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。 JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。 JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有可原创 2021-03-08 22:24:59 · 195 阅读 · 0 评论 -
实时计算之Flink介绍
Flink介绍 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 优点 低延时 高吞吐 结果的准确性和良好的容错性 应用场景 电商和市场营销 数据报表、广告投放、业务流程需要 物联网 传感器实时数据采集和显示、实时报警 银行和金融业 实时结算和通知推送,实时监测异常行为 流处理的演变 lambda架构 - 用两套系统,同时保证低延迟和结果准确 流程的演变 Flink的主要特点 时间驱动(Event-driven) 基于流的世界观 在Flink的世界观中,一切原创 2021-03-07 21:58:06 · 372 阅读 · 0 评论