实时数据仓库

满床清梦覆星河

已于 2023-12-14 18:51:23 修改

阅读量1.6k

点赞数 3

分类专栏： Resume 文章标签：数据仓库 kafka java

于 2023-02-14 22:17:32 首次发布

本文链接：https://blog.csdn.net/qq_40640228/article/details/129017235

版权

1 为什么选择kafka?

① 实时写入，实时读取

② 消息队列适合，其他数据库受不了

2 ods层

1）存储原始数据

埋点的行为数据 (topic ：ods_base_log)

业务数据 (topic ：ods_base_db)

2）业务数据的有序性： maxwell配置，指定生产者分区的key为 table

3 dwd+dim层

① 事实表存Kafka

② 维度表存Hbase,基于热存储加载维表的join方案：

    	随机查
    	长远考虑
    	适合实时读写

DIM：事实数据根据维度ID查询相应的维度数据

		HBase:√
		Redis:用户表数据量大,内存使用量太大
		HDFS(Hive):太慢,效率低
		Mysql:维表数据属于业务库,实时计算查询MySQL会给业务库增加压力--从库 √
		ClickHouse:QPS高、列存

3.1 动态分流

将事实表写入kafka的dwd层，将维度表写入hbase。为了避免因表的变化而重启Flink任务，在mysql存一张表来动态配置。

DIM层编程：

	1.消费Kafka topic_db主题数据(包含所有的业务表数据)
	2.过滤维表数据(根据表名做过滤)
	3.将数据写入Phoenix(每张维表对应一张Phoenix表)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

满床清梦覆星河

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
6
评论
实时数据仓库

实时仓库知识点
复制链接

扫一扫

专栏目录

【Flink实时数仓】数据仓库项目实战《二》数据采集到kafka【ODS】

m0_47139992的博客

11-27

1444

【Flink实时数仓】数据仓库项目实战《二》数据采集到kafka【ODS】

一个简化、落地的实时数据仓库解决方案

brucexia的专栏

05-18

1143

在真实的数据仓库项目中会涉及多种数据源，不同数据源产生的数据质量可能差别很大，数据库中的格式化数据可以直接导入大数据存储系统，而日志或爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。Greenplum是一种成熟的MPP架构的分布式数据库，提供了丰富全面的功能，并且性能优良，比较适合当作实时数据仓库的数据存储、数据处理和数据查询引擎。实时数据仓库分层架构如图1-9所示。图1-10显示的是一个简化的、落地的，并基于MySQL、Canal、Kafka、Greenplum构建的实时数据仓库架构。

6 条评论您还未登录，请先登录后发表或查看评论

实时数仓新选择——Doris构建实时数仓落地方案详解

qq_15138049的博客

07-13

3227

doris 构建实时数仓落地方案

基于 HBase &amp； Phoenix 构建实时数仓（5）—— 用 Kafka Connect 做实时数据同步_phoenix 数据同步(1)

最新发布

2401_84181164的博客

05-11

430

MySQL主从复制相关配置参见“

“实时数仓”到底是什么？

java_cjkl的博客

03-22

1714

那么实时数仓的出现也为这些行业打开了一个新的一种业务的发展的可能性。那么我们现在也看到，有更多的一些数据他们是没有严格按照我们的数据建模的，或者说他们是非常零散的，散落在各处的，非常的多模，存在不同的这种数据存储形式的这样一些数据。那么今天我们谈到的实时数据仓库实际上就是从另外一个角度去谈，对我们数据仓库中的实时性部分的需求做了特殊加强的一种技术平台，它提供的是我们对于实时数据仓库领域里面，对于那种需要我们的数据的采集计算加工处理，实现要求很高的一些领域的一种特有的一种技术，所以它也是一种技术名词。

实时数仓Hologres 【快速了解】

m0_47139992的博客

11-17

2357

实时数仓Hologres

实时数据仓库解决方案.pdf

06-19

实时数据仓库是指在实时处理大数据的同时，实时地将数据存储到仓库中，以满足实时报表、实时分析和实时决策的需求。实时数据仓库解决方案是指基于实时数据仓库的解决方案，旨在满足企业的实时数据处理需求。实时...

AnalyticDB-快数据时代的实时数据仓库技术内幕.pdf

07-17

2019云栖大会-AnalyticDB-快数据时代的实时数据仓库技术内幕，一起来学习阿里巴巴PB级数据处理机制

基于Flink+Doris构建高性能高扩展的全端实时数据仓库视频教程

06-21

基于Flink+Doris构建高性能高扩展的全端实时数据仓库视频教程课程具体数仓报表应用指标包括：实时大屏分析、流量分析、订单分析、商品分析、商家分析等，数据涵盖全端（PC、移动、小程序）应用，与互联网企业大数据...

基于Flink的实时数据仓库实践分享

02-24

严选实时数仓项目是从17年下半年开始做的，背景总结为三个方面：第一个是长链路且快速变化的业务，严选作为一个ODM电商，整个业务链度从商品采购、生产、仓库、到销售这个阶段可以在主站APP上购买或者分厂购买，然后...

大数据实时分析数据仓库

12-01

大数据实时分析数据仓库

基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践

Allenzyg的博客

07-07

841

背景 Flink + Kafka 平台化设计 Kafka 在实时数仓中的应用问题 & 改进链接：基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践

（59）订单明细写入 Kafka（DWD 层）

song_quan_的博客

07-29

686

OrderDetailApp 完整代码 2.5 订单写入 Kafka（DWD 层） OrderInfoApp 完整代码 2.6 整体测试 2.6.1 在 DWS 中创建 OrderWideApp 接收数据 2.6.2 运行 BaseDBMaxwellApp 、 OrderInfoApp 、 OrderDetailApp、OrderWideApp,运行模拟生成业务数据 jar...

大数据项目之Flink实时数仓(DWD/DIM层)

wenqi

01-26

4758

上一篇文章中简单把实时数仓数据采集以及ODS层搭建完成，开始搭建DWD层 DWD层搭建思路：从kafka的ods层读取用户行为数据和业务数据，进行简单处理，再写入到kafka dwd层

flink实时数仓(二)之dwd层

bigdata_wangzhe的博客

03-24

763

我们这里从kafka的ods层读取用户行为日志以及业务数据，并进行简单处理，写回到kafka作为dwd层。每层的职能分层数据描述生成计算工具存储媒介 ODS 原始数据，日志和业务数据日志服务器， maxwell kafka DWD 根据数据对象为单位进行分流，比如订单、页面访问等等。 FLINK kafka DWM 对于部分数据对象进行进一步加工，比如独立访问、跳出行为。依旧是明细数据。 FLINK DIM 维度数据 FLINK HBase DWS 根据某个维度

数据仓库架构演进与菜鸟实时数据仓库设计

weixin_34004750的博客

11-05

2650

2019独角兽企业重金招聘Python工程师标准>>> ...

实时数仓系列-网易云音乐基于 Flink + Kafka 的实时数仓建设实践

Q54665642ljf的博客

08-04

563

基于这种将大的 Topic 分发成小的 Topic 的方法，大大减轻了集群的压力，提升了性能，另外，最初使用的是静态的分发规则，后期需要添加规则的时候要进行任务的重启，对业务影响比较大，之后我们考虑了使用动态规则来完成数据分发的任务。A3：在运行的过程中我们有一个分发的服务，在分发的过程中我们会根据一定的规则来检测哪些数据是异常的，哪些是正常的，然后将异常的数据单独分发到一个异常的 Topic 中去做查询等，后期用户在使用的过程中可以根据相关指标和关键词到异常的 Topic 中去查看这些数据。...

实时数据仓库模型设计规范

05-11

实时数据仓库的模型设计需要考虑以下几个方面的规范： 1. 数据模型设计：实时数据仓库的数据模型应该采用维度建模，将数据按照业务过程进行划分，确定事实表和维度表，并且需要考虑数据的粒度，即每个事实表记录所...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交