自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 hive和presto的SQL对比

Presto使用的内存管理技术是基于内存池的,可以更好地管理内存的分配和释放。假如一个Query需要消耗100GB的内存,这就超过了整个集群的内存了,那么Presto的coordinator就直接卡掉这个查询,防止。查询优化:Presto使用了一系列的查询优化技术,如谓词下推、列裁剪、分区裁剪等,可以减少数据的传输和处理,从而提高查询性能。社区支持:Presto有一个活跃的社区,不断地更新和维护代码,修复bug和增加新功能,保证了Presto的稳定性和可靠性。Presto(或PrestoDB)

2024-08-06 14:52:56 11

原创 Redis

关系型结构太复杂,数据库,表,字段,类型,主键,外键,索引,表之间关系。Redis Sentinel(哨兵)是一个用于监控和管理 Redis 高可用性的系统,它能够自动检测主节点的故障并进行切换,以确保系统的持续可用性。Sentinel 定期监测 Redis 主节点和从节点的健康状态,如果发现主节点不可用,会自动将一个从节点升级为新的主节点。当主节点不可用时,Sentinel 会自动从可用的从节点中选举一个作为新的主节点,从而保证系统的可用性。当主节点故障时,哨兵会自动完成切换过程,无需人工介入。

2024-08-06 14:50:42 372

原创 Hbase Distcp

需要注意的是,distcp命令只会复制表的数据,不会复制表的结构。因此,在执行distcp之前,确保在目标HBase集群上创建了与源表结构相同的表。此外,如果源表包含任何的HBase过滤器或者复杂的结构,可能需要额外的处理来保证数据的完整性。但是,实际的map数可能会受到其他因素的影响,比如输入数据的大小、文件数量等。参数指定 HFile 文件的保存路径,但该参数似乎与指定的保存路径重复,可能需要进一步确认或调整。确保源和目标HBase集群的连接参数正确配置,并且目标集群上已经准备好了要导入的表的空间。

2024-08-06 14:48:39 469

原创 数据仓库建模

周期快照事实表一般是建立在事务事实表之上的聚集,维度比事务事实表少,粒度比事务事实表粗,但是由于对事实进行了多种形式的加工从而产生了新的事实,故一般事实会比事务事实表多。不管事实表对应一个还是多个业务过程,粒度必须是确定的,每个事实表都有且只能有唯一的粒度,粒度是事实表的每一行所表示的业务含义,是事实的细节级别。粒度的声明是事实表设计中不可忽视的重要一步,粒度用于确定事实表中一行所表示业务的细节层次,决定了维度模型的扩展性,在选择维度和事实之前必须先声明粒度,且每个维度和事实必须与所定义的粒度保持一致。

2024-08-06 14:27:41 751

原创 数据湖调研

数据湖(Data Lake)是一种大数据存储架构,它允许存储大量不同类型和格式的数据,并支持用于数据分析和机器学习的高级查询和处理。数据湖是为了解决大数据场景下的遗留问题而产生的,为打破数据孤岛而诞生。数据湖的特点如下:灵活性。数据湖可以容纳不同类型和格式的数据,不需要先进行结构化处理,强调原始数据的存储和管理。分布式存储。通常使用分布式文件系统,如Hadoop或Amazon S3作为底层存储引擎,数据可以以原始格式存储,例如JSON、CSV或Parquet等。成本效益。

2024-08-06 14:25:53 768

原创 数据挖掘与数据分析

1、数据挖掘(Data Mining)数据挖掘是指对大规模数据进行分析,以发现其中潜在的模式、规律或关联性的过程。其目的在于从数据中提取有价值的信息,以支持决策制定、预测未来趋势等。数据挖掘涉及多种技术和方法,包括机器学习、统计分析、数据库技术等。2、数据分析(Data Analysis)数据分析是指对数据进行收集、清洗、转换和建模等处理,以获得对问题的洞察和理解的过程。数据分析旨在揭示数据背后的意义,为决策提供支持和指导。它可以采用多种统计和计算方法,如描述性统计、推断统计、预测分析等。

2024-08-06 14:21:55 786

原创 指标体系梳理

指标是说明总体数量特征的概念及其数值的综合。针对某一具体事物或行为进行量化描述的数值。维度是指标的属性或者特征,同时也是指标的必要定语。时间维度从低层到高层包括日、周、月、季度、年度等。地区维度从低层到高层包括区/县、市、省、国家等。当然还可以根据自己业务需要重新定义和划分。准确性 :一个指标最要的就是能否准确的进行统计,如果这点满足不了,其他一切免谈,否则只会搬起石头砸自己的脚。可比较性:是指有维度可比较,比如同期比较,不同地区比较,如果没有比较,指标也没有意义。

2024-08-06 14:20:40 712

原创 元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。技术元数据为开发和管理数据仓库的 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

2024-08-06 12:31:58 204

原创 实时数仓设计

Canal 是用java 开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal 主要支持了 MySQL 的 Binlog 解析,解析完成后才利用Canal Client 来处理获得的相关数据。(数据库同步需要阿里的Otter 中间件,基于Canal)。Canal 的工作原理,是把自己伪装成 Slave,假装从Master 复制数据MySQL 主从复制过程Master 主库将改变记录,写到二进制日志(Binary log)中。

2024-08-06 12:30:01 261

原创 Flume

flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。是apache的一个顶级项目。

2024-08-05 19:53:13 77

原创 大数据之路

2024-08-04 23:35:49 15

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除