实时数仓
文章平均质量分 62
bigdata_wangzhe
这个作者很懒,什么都没留下…
展开
-
同步数据CDC之debezium
Debezium架构Debezium是一个捕获数据更改(CDC)平台,并且利用Kafka和Kafka Connect实现了自己的持久性、可靠性和容错性。每一个部署在Kafka Connect分布式的、可扩展的、容错性的服务中的connector监控一个上游数据库服务器,捕获所有的数据库更改,然后记录到一个或者多个Kafka topic(通常一个数据库表对应一个kafka topic)。Kafka确保所有这些数据更改事件都能够多副本并且总体上有序(Kafka只能保证一个topic的单个分区内有序),这样,更原创 2021-03-27 10:30:55 · 386 阅读 · 0 评论 -
flink实时数仓(二)之dwd层
我们这里从kafka的ods层读取用户行为日志以及业务数据,并进行简单处理,写回到kafka作为dwd层。每层的职能分层数据描述生成计算工具存储媒介ODS原始数据,日志和业务数据 日志服务器,maxwellkafkaDWD根据数据对象为单位进行分流,比如订单、页面访问等等。FLINKkafkaDWM对于部分数据对象进行进一步加工,比如独立访问、跳出行为。依旧是明细数据。FLINKDIM维度数据FLINKHBaseDWS根据某个维度原创 2021-03-24 23:56:59 · 739 阅读 · 3 评论 -
实时计算flink之运行架构
Flink 运行时的组件作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager 所控制执行。JobManager 会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。JobManager 会把JobGraph转换成一个物理层面的数据流图,这个图被叫做“执行图”(ExecutionGraph),包含了所有可原创 2021-03-08 22:24:59 · 187 阅读 · 0 评论 -
实时计算之Flink介绍
Flink介绍Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。优点低延时高吞吐结果的准确性和良好的容错性应用场景电商和市场营销数据报表、广告投放、业务流程需要物联网传感器实时数据采集和显示、实时报警银行和金融业实时结算和通知推送,实时监测异常行为流处理的演变lambda架构- 用两套系统,同时保证低延迟和结果准确流程的演变Flink的主要特点时间驱动(Event-driven)基于流的世界观在Flink的世界观中,一切原创 2021-03-07 21:58:06 · 358 阅读 · 0 评论