- 博客(36)
- 收藏
- 关注
原创 实时数仓之实际落地如何选型和构建
目前在基于批流一体实时数仓已经有了很好的技术体系,在构建实时数仓的时候,可以帮助我们少走很多弯路,并且达到很好的效果,为以后构建实时数仓,分析企业行为、企业动态等,为企业服务与升级提供更有利的数据支撑。
2022-09-26 11:27:48 2537
转载 实时数仓之 Kappa 架构与 Lambda 架构
随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代,数据仓库架构方面也在不断演进,分别经历了以下过程:早期经典数仓架构 > 离线大数据架构 > Lambda > Kappa > 混合架构。
2022-09-20 17:32:35 709
原创 Zookeeper
Zookeeper 作为一个分布式的服务框架,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
2022-09-20 17:08:06 566
原创 数据及时性保障方案
数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响企业的经营管理决策。
2022-09-16 17:08:40 1158
原创 浅析事实表
数据仓库系统中的事实表只不过是包含所有事实或业务信息的表,可以在需要时进行分析和报告活动。这些表包含表示直接事实的字段,以及用于将事实表与数据仓库系统中的其他维度表连接起来的外部字段。一个数据仓库系统可以有一个或多个事实表,这取决于用于设计数据仓库的模型类型。
2022-09-16 11:51:20 708
原创 数据指标体系建设方法
建立数据指标体系,可以帮助产品经理更好地梳理、理解业务,并发现业务过程中出现的问题,进而推动产品的迭代优化。那么,数据指标体系应该如何建立?本篇文章里,作者就数据指标体系的整理方法进行了总结,一起来看一下。
2022-09-14 17:05:05 398
原创 大数据架构发展的20年
本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。
2022-09-14 14:54:06 451
原创 Apache Doris 1.1 特性揭秘:Flink 实时写入如何兼顾高吞吐和低延时
Apache Doris 是一个高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
2022-09-13 17:56:03 1143 1
原创 第二部分:Spark进阶篇
Spark进阶篇包括:SparkShuffle、容错机制、Checkpoint机制、广播变量、累加器、Kryo序列化、Spark数据本地化、SparkSql、SparkStreaming等知识点
2022-09-05 18:06:28 1801
原创 企业级-数据治理体系建设
数据治理是指企业的数据架构、数据标准、数据质量、数据安全等领域的建设和管理的全流程。作为一个数据工作者,无论公司数据体量大或小,都应该具备数据治理的能力。
2022-08-24 19:26:14 1127
转载 详解数据仓库、数据湖、数据中台和湖仓一体
在谈论数据中台之前, 我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别, 下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
2022-08-23 18:14:53 1652 1
原创 第二部分:Flink 进阶篇
进阶篇:包含了Flink中的如何保证Exactly-Once语义、Watermark机制、容错机制、状态机制、重启策略、分区策略、序列化、内存模型、反压等实际生产环境中遇到的问题等考察点
2022-08-22 22:31:31 1077 1
原创 第一部分:Flink基础篇
基础篇:包含了Flink中的原理、特点、发展时间线、集群角色、与Spark Streaming对比、任务提交流程、FlinkCDC、批流一体、CEP机制等知识点
2022-08-21 21:58:59 1596 1
原创 浅谈Hive数据仓库之拉链表
**Hive数据仓库之拉链表**本篇分享总体结构:①.先分享一下拉链表的用途、什么是拉链表。②.通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。③.举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。④.分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。1.到底什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式
2022-02-25 19:59:46 1647 2
原创 Flink背压机制
背压,归根结底就是为了让实施消费的数据和处理在流式处理系统中,如果出现下游消费的速度跟不上上游生产数据的速度,就种现象就叫做背压(backpressure,有人叫反压,不纠结,本篇叫背压)。本篇主要以Flink作为流式计算框架来简单背压机制,为了更好理解,只做简单分享。2.背压产生的原因下游消费的速度跟不上上游生产数据的速度,可能出现的原因如下:(1)节点有性能瓶颈,可能是该节点所在的机器有网络、磁盘等等故障,机器的网络延迟和磁盘不足、频繁GC、数据热点等原因。(2)数据源生产数据的速度过快,计算
2021-10-19 18:07:42 3737 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人