自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 查询每个产品每年总销售额

本文主要介绍了利用时间维度去切割交叉日期的售卖产品,从而查询出每个产品每年的总销售天数

2024-07-29 23:52:35 996

原创 Hbase简介和快速入门

本文首先简单介绍了Hbase的定义,逻辑结构,物理存储结构;然后详细的介绍了Hbase的安装;最后简单介绍了Hbase的shell命令操作

2024-07-28 23:55:21 1248

原创 clickhouse中bitmap介绍

本文主要介绍了在clickhouse中使用bitmap来做用户画像的宽表,从而使圈选人群时更加快速

2024-07-27 13:27:32 1142

原创 行列转换函数-pivot与unpivot

本文通过案例介绍了行转列函数-pivot以及列转行函数-unpivot。

2024-07-26 16:53:46 284

原创 补充缺失时间和余额

本文主要介绍了在实际业务中如何补充缺失日期和余额,用到了space,split,posexplode等函数

2023-11-03 19:22:06 174

原创 Shell工具使用

本文主要介绍了4种常用的shell工具,分别是cut,sed,awk,sort

2023-10-18 15:44:25 142

原创 Hive UDF实现数据加密解密功能

本文主要介绍了使用AES算法对数据进行加密和解密

2023-09-30 10:24:24 1229

原创 Hive-窗口函数练习

本文主要介绍了开窗函数在具体问题的使用

2023-09-30 00:31:26 207

原创 Hive开窗函数

本文主要介绍Hive开窗函数的用法

2023-09-20 16:35:59 404

原创 Hive常用函数

本文主要介绍了hive的常用函数,包括字符串函数,集合函数,高级聚合函数,炸裂函数等

2023-09-19 23:40:31 1454 1

原创 Hudi集成Hive

本文主要介绍了Hudi集成Hive

2023-09-15 21:12:47 201

原创 Hudi集成Flink

本文主要介绍了Hudi集成Flink的使用

2023-09-14 23:33:48 182

原创 Hudi数据的读写

本文主要介绍了Hudi的读、写以及Compaction操作

2023-09-08 22:33:47 109

原创 Hudi基本概念

本文主要介绍了Hudi的基本概念,包括时间轴,文件布局,索引,表类型,查询类型

2023-09-08 18:21:48 120

原创 Hudi的概述与编译安装

本文主要介绍了Hudi的特性,使用场景,编译安装过程

2023-09-08 15:33:13 436

原创 Kafka安装

本文主要介绍了kafka的安装

2023-08-13 11:28:52 50

原创 腾讯云搭建hadoop集群

本文主要介绍了在腾讯云中利用3台服务器搭建hadoop3.1.3集群环境,特别要注意在配置/etc/hosts的时候,当前节点内网ip和hostname映射,其余节点外网和对应的hostname映射

2023-08-13 00:04:37 278

原创 Kafka消费者

本文围绕Kafka消费者,首先介绍了Kafka的消费方式,然后介绍了Kafka消费者的工作流程,接着介绍了分区分配策略,接着又介绍了offset位移一级漏消费和重复消费问题,最后介绍了如何提高Kafka的吞吐量。

2023-07-31 15:18:36 129

原创 Kafka Broker

本文首先介绍了Kafka Broker的总体流程,然后介绍了Kafka的副本,接着介绍了文件存储,最后介绍了Kafka高效读写数据的原因

2023-07-30 20:21:41 96

原创 Kafka生产者

本文主要围绕Kafka的生产者,介绍了生产者的分区,数据的可靠性,数据去重,数据有序

2023-07-30 17:07:35 48

原创 MySQL之explain

本文主要介绍了在MySQL数据库中使用explain各字段的解释说明

2023-07-30 11:54:24 73

原创 kafka的基础架构和常用命令

本文主要介绍了Kafka的基础架构和常用命令操作

2023-07-27 22:40:07 62

原创 MySQL的B+树索引

本文主要介绍了MySQL的InnoDB索引,介绍了索引的相关内容,如B+树索引原理,聚簇索引和非聚簇索引,最左前缀原则,范围之后查询失效的原因以及索引下推的流程等

2023-07-24 23:57:39 297

原创 向用户推荐朋友收藏的商品

本文介绍了2种向用户推荐朋友收藏的商品的实现方式

2023-07-23 15:54:03 66

原创 查询至少连续三天下单的用户

本文介绍了使用3种方法实现连续3天下单的用户,类似的需求还有连续3天登录的用户等

2023-07-23 15:38:14 384

原创 各品类中商品价格的中位数

本文介绍了中位数的2种实现方式

2023-07-23 00:26:59 142

原创 hvie列式存储ORC和parquet

本文首先介绍了行列存储的特点,然后分别的从文件格式的说明,建表语句,文件格式支持的参数分别介绍了列式存储ORC和Parquet。

2023-07-22 18:00:00 131

原创 hive日期函数

本文主要介绍hive日期函数的用法

2023-07-09 22:08:08 950

原创 mysql索引的基本介绍和索引失效的情况

本文首先介绍了什么是索引——索引其实是一种用来提高查询效率数据结构,结合索引的优缺点来根据实际情况选择创建索引;索引有单值索引,唯一索引,主键索引,复合索引;然后介绍了避免索引失效的情况,主要是破会了索引的有序性索引会失效。查询优化器判断全表扫描比使用索引+回表的效率高,优化器会放弃使用所用。对于查询列使用了运算也会时索引失效。

2023-07-07 23:56:32 196

原创 数仓之缓慢变化维处理方式

本文主要介绍了缓慢变化维的处理方式。在工作中,用到最多的就是每天全量快照和拉链表。本文详细介绍了2种方式具体sql实现过程以及它们的优缺点,在工作中结合实际业务,可以灵活选择

2023-07-06 00:23:02 681

原创 数据建模-维度模型

本文首先介绍了什么是维度模型,然后分别从维度模型的事实表和维度表展开详细的说明。对于怎么设计好事实表,列举了8条原则,接着又分别详细介绍了事实表的设计流程,包括事务型事实表,周期型快照事实表,累积型快照事实表,针对3者的优缺点在实际工作中要灵活选择;最后介绍了维度表,要特别注意维度表的设计要点。

2023-07-03 23:51:11 475

原创 数据仓库分层设计

本文首先介绍了什么是数据仓库,数据仓库有什么特点;然后介绍了如何才能设计出好的数据仓库,要基于的原则;接着介绍了数据仓库如何分层,每层的作用和意义,数据层次调用的原则;最后介绍了每层表的命名规范以及数据清洗的规范

2023-07-02 23:51:09 591

原创 Flink中状态

本文介绍了Flink中的状态,主要是5种按键分区状态和3种算子状态以及状态的保存

2023-07-01 18:40:32 1593

原创 Flink中处理函数(Process Function)

本文主要介绍了按键分区处理函数(KeyedProcessFunction)和窗口处理函数(ProcessWindowFunction)以及测输出流

2023-06-26 22:25:48 950

原创 Flink中的时间语义和水位线(Watermark)

本文首先介绍了Flink中通常将事件时间作为时间语义,然后介绍了水位线的概念,其作用是保证之前的数据全部到齐,最后介绍了水位线和窗口的工作原理以及水位线的生产策略

2023-06-26 21:17:58 915 2

原创 Flink中的窗口

本文主要介绍了窗口的分类以及各个窗口的API

2023-06-25 23:19:55 3090

原创 Flink作业提交流程

本文主要是介绍Flink的作业提交流程。在正式介绍作业提交流程之前,先介绍了2个主要角色,作业管理器(JobManager)和任务管理器(TaskManager),然后介绍了作业运行时几个核心概念,包括并行度,算子链,任务槽,任务槽和并行度的关系。最后介绍了Flink的作业提交流程,包括standalone会话模式作业提交流程和yarn应用模式作业提交流程,注意两者之间的区别,希望对大家有所帮助

2023-06-11 19:29:02 1394

原创 4 ElasticSearch RestFulAPI(DSL)

ElasticSearch的简单使用

2022-05-27 20:37:02 266

原创 3、ElasticSearch的基本概念

ElasticSearch的基本概念3.1近实时(Near Realtime / NRT)Elasticsearch是一个近实时的搜索平台,从生成文档索引到文档成为可搜索,有一个轻微的延迟(通常是一秒钟)。3.2 集群(Cluster)ES 默认就是集群状态,整个集群是一份完整、互备的数据。集群是一个或多个节点(服务器)的集合。集群中的节点一起存储数据,对外提供搜索功能。集群由一个唯一的名称标识,该名称默认是“elasticsearch”。集群名称很重要,节点都是通过集群名称加入集群。集群不要重名,

2022-05-25 23:39:11 112

原创 2、ElasticSearch的特点

2、ElasticSearch的特点2.1 天然分片,天然集群ES把数据分成多个shard,下图中的P0-P2,多个shard可以组成一份完整的数据,这些shard可以分布在集群中的各个机器节点中。随着数据的不断增加,集群可以增加多个分片,把多个分片放到多个机子上,已达到负载均衡,横向扩展。在实际运算过程中,每个查询任务提交到某一个节点,该节点必须负责将数据进行整理汇聚,再返回给客户端,也就是一个简单的节点上进行Map计算,在一个固定的节点上进行Reduces得到最终结果向客户端返回。这种集群分片的

2022-05-25 18:14:02 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除