自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 浅谈Zookeeper

Zookeeper是Apache软件基金会的一个软件项目,它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于Zookeeper实现数据发布/订阅,负载均衡,命名服务,分布式协调/通知,集群管理,Master选举,分布式锁和分布式队列等功能。Zookeeper现在是一个独立的顶级项目,曾经是Hadoop的一个子项目。- Paxos算法是Leslie Lamport宗师提出的一种基于消息分布式一致性算法,使其获得2013年图灵奖。

2024-06-13 09:23:56 339 1

原创 数据建模流程

多数事实表关注某一业务过程的结果,过程的选择非常重要,因为过程定义了特定的设计目标以及对粒度,维度,事实的定义。在维度类型中,有一种重要的维度称为退化为度,这种维度指的是会直接把一些简单的维度放在事实表中,退化维度是维度建模领域中的一个非常重要的概念,它对理解维度建模有着至关重要的概念,退化维度一般可在分析中用来做分组使用。以供同粒度从多个组织业务过程合并度量的事实表称为合并事实表,需要注意的是,来自多个业务过程的事实合并到事实表时,它们必须具有同等级的粒度。其优化的核心思路是更快的处理事务。

2024-05-07 10:02:03 1538

原创 SQL基础优化

map join:特别适合大小表join的情况,大小表join在map端直接完成join过程,没有reduce,效率。reducer做部分聚合,相同的key就会分布在不同的reducer中。要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,多表join时key相同:会将多个join合并为一个MR job来处理,两个join的条件不相同,就会拆成多。将结果按某字段全局排序,这会导致所有map端数据都进入一个reducer中,在数据量大时可能会。

2024-04-17 16:44:50 303

原创 VUE的概念

响应式数据绑定:数据发生改变,视图自动更新(开发者不再关注 dom 操作,进一步提高开发效率)。可组合视图组件:视图按照功能切分成基本单元(易维护,易重用,易测试)。

2024-04-17 14:17:37 275

原创 FlinkSql聚合查询

在一个Group By查询中,根据不同维度组合进行聚合。Grouping Sets 会把在单个Group By 逻辑种没有参与Group by 的那一列设置为Null值。更多情况下,我们可以通过GROUP BY 子句来指定分组的键(key),从而对数据按照某个字段做一个统一的分组统计。SQL中一般说的聚合我们都很熟悉,主要是通过一些内置的聚合函数来实现的,他们的特点是对多条输入进行计算,得到一个唯一的值,属于“多对一的转换”比如SUM(),MAX(),AVG(),COUNT();

2024-04-17 10:47:36 489

原创 FlinkCDC

FlinkCDC是Apache Flink的一个模块,用于实时捕获和处理数据库变更数据。它可以监控关系型数据库中的数据变更,并将这些变更数据以流的形式输出到Flink的数据流中进行实时处理和分析。总结一下,FlinkCDC是一个用于实时捕获和处理数据库变更数据的模块,它能够以低延迟、Exactly-once语义的方式将数据库变更数据输出到Flink的数据流中进行实时处理和分析。

2024-04-16 20:42:16 275

原创 数据仓库搭建流程详解

5. 数据集成与建模:将不同来源的数据进行集成,并建立数据仓库的逻辑模型,包括确定基本方法、基于主题视图、识别关系、分解多对多的关系、用范式理论检验、由用户审核和转化为数据仓库数据模型。3. 数据清洗与转换:对采集到的数据进行清洗和转换,以确保数据的质量和一致性,这一步需要考虑到各种转换方法,并满足时间要求。4. 数据存储与管理:将清洗和转换后的数据存储在数据仓库中,并进行数据库管理和元数据管理,元数据是描述数据的数据。6. 数据质量与验证:对数据仓库中的数据进行质量验证,确保数据的准确性和完整性。

2024-04-16 17:09:50 814

原创 离线数仓分层模型

数据从原始数据层中抽取出来,并进行清洗转换,规范化,清洗转换过程中用于解决数据质量问题,例如取出重复值,处理缺失数据,标准化格式,转换过程用于将数据转化为符合数据仓库模型结构。存储最原始的,未经处理的数据,原始数据可以来自各种数据源,例如数据库,日志文件,在原始数据层,数据以最原始的形式进行存储,通常不进行任何处理,以确保数据的完整性和可追溯性。数据查询的最上层,它为业务用户提供了查询和报告的接口,在这一层,用户可以执行复杂的数据查询,多维分析和报表生成。2.DWD: 数据明细层 : 清洗过滤后的数据。

2024-04-16 14:22:58 309

原创 数据质量监控 开发中遇到的问题

我们公司很注重数据的正确性,安全性,刚开始的时候,为了保证数据质量,之前的做法为在相关任务中加上自己定义的逻辑来检查数据是否正确。但是随着业务的快速迭代,数据量越来越大,这种纯人工的方式耗时耗力。- 纯人工开发监控逻辑效率不高,需要额外花费很多人力,不同业务在多个集群中都有数据质量监控,没办法统一管理。- 支持可视化界面的配置,提供了很多数据质量的额规则,简化开发提高效率。- 支持多数据源,能够同时对不同类型的数据库的数据配置监控任务,覆盖面广。- 权限管理功能很完善,能够保证数据的私密性。

2024-04-16 10:26:31 337

原创 浅谈数据中台

#数据中台这个东i下,目前业界还没有一个完整的标准定义,在我而言,数据中台首先至少是一个分布式的数据仓库,同时包含相对应实施的方法和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。除了编程技术,应用开发技术与传统的IT应用技术具有部分的重合,数据中台还有自己的技术体系,比如大数据的开发技术,数据仓库建模技术,数据分析体系,数据应用技术体系等.数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。3.中台的价值是啥?

2024-04-15 16:24:36 306 1

原创 MapReduce运行流程

6.当已完成的MapTask任务达到总MapTask任务的5%时,ReduceTask即可初始化并根据file.out.index拉去分区数据,拉来的数据,在MapTask阶段是有序的,但是不同MapTask之间又无序了,对拉取来的数据进行全局归并排序,然后再分组进入Reduce阶段。2.切片器根据任务大小和个数,计算任务切片,并初始化MapTask,切片是一个逻辑概念,可以在不改变现有数据存储的情况下控制参与计算节点的额数量,Split切片默认大小是Block的大小,默认128M。

2024-04-13 17:46:02 846

原创 Flink算子

Rescale : 根据上下游并行度,循环发送到下游算子的每个实例。- Rebalance : 数据会被循环发送到下游每一个分区中。- Global : 上游所有分区会发送到下游第一个分区上。3.Flink Partitioner 类算子。1.TransFormation类。- Broadcast : 广播。- 基于Connectors。- shuffle : 随机。

2024-04-13 15:13:48 181

原创 Flink端到端一致性&水位线

水位线的本质 (是用来度量事件时间的) 水位线的本质是一个时间戳 从事件时间里面提取 默认200ms生成一个,截取的时当前批次里面最大的时间戳 水位线随着数据流动,是一条特殊的标记 WaterMark是单调递增的,需要保证任务的时间时钟是在前进 Flink是如何实现端到端精确一次消费 1.4版本之后,在数据提交到外部存储时,如果需要实现精确一次处理,也就是Flink应用从Source端开始到Sink端结束,数据必须经过起始点和结束点,保证所有的记录仅影响内部和外部状

2024-04-13 14:44:38 135

原创 ClickHouse 项目中常见的表引擎

外部存储表引擎直接从其它的存储系统读取数据,例如读取HDFS的文件或者MySql数据库的表,这些表引擎只负责元数据管理和数据查询,他们自身通常并不负责数据的写入,数据文件直接由外部系统提供。1.Memory表引擎直接将数据保存在内存中,数据既不会被压缩也不会被格式化转换,数据在内存中保存的形态与查询时看到的如出一辙。将数据全量放在内存中,一方面,查询性能高,但是如果装载的数据量过大,可能带来极大的内存消耗和负担。Set表引擎具有去重的内力,在数据写入的过程中,重复的数据会被自动忽略。

2024-04-11 14:27:51 341 1

原创 ClickHouse为什么快

# ClickHouse 是俄罗斯搜索巨头 Yandex 公司早 2016年 开源的一个极具 " 战斗力 " 的实时数据分析数据库,开发语言为C++,是一个用于联机分析 (OLAP:Online Analytical Processing) 的列式数据库管理系统(DBMS:Database Management System),简称 CK,工作速度比传统方法快100-1000倍,ClickHouse 的性能超过了目前市场上可比的面向列的DBMS。

2024-04-11 11:04:21 224 1

原创 Spark on Yarn 运行流程

Spark on Yarn Cluster 运行流程

2024-04-11 10:48:07 208 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除