自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

index_test的博客

原创数仓模型之维度建模

理解Kimball 最先提出的维度建模

2023-02-24 18:36:07 1710

原创 Smtplib之发邮件模块

smtplib模块详解

2023-02-24 16:47:51 3328

原创 Matplotlib之画图模块

Matplotlib可视化展示

2023-02-24 16:00:00 683

原创 Flink中遇到的问题

解决遇到的一些问题

2023-02-24 15:21:48 3145

原创 ETL数据解析

hive中对数组里含有json串时，总结了3种数据解析方式

2022-11-17 16:45:52 906

原创实时数仓之实际落地如何选型和构建

目前在基于批流一体实时数仓已经有了很好的技术体系，在构建实时数仓的时候，可以帮助我们少走很多弯路，并且达到很好的效果，为以后构建实时数仓，分析企业行为、企业动态等，为企业服务与升级提供更有利的数据支撑。

2022-09-26 11:27:48 2652

转载实时数仓之 Kappa 架构与 Lambda 架构

随着数据量的暴增和数据实时性要求越来越高，以及大数据技术的发展驱动企业不断升级迭代，数据仓库架构方面也在不断演进，分别经历了以下过程：早期经典数仓架构 > 离线大数据架构 > Lambda > Kappa > 混合架构。

2022-09-20 17:32:35 803

原创 Zookeeper

Zookeeper 作为一个分布式的服务框架，主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

2022-09-20 17:08:06 590

原创 HiveQL使用总结

hivesql常用函数

2022-09-19 16:42:15 505

原创数据及时性保障方案

数据的质量直接影响着数据的价值，并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题，还会影响企业的经营管理决策。

2022-09-16 17:08:40 1236

原创浅析事实表

数据仓库系统中的事实表只不过是包含所有事实或业务信息的表，可以在需要时进行分析和报告活动。这些表包含表示直接事实的字段，以及用于将事实表与数据仓库系统中的其他维度表连接起来的外部字段。一个数据仓库系统可以有一个或多个事实表，这取决于用于设计数据仓库的模型类型。

2022-09-16 11:51:20 769

原创最容易出错的 Hive Sql 详解

日常工作中常容易忽略的知识点

2022-09-15 17:36:35 1476

原创浅谈数据治理与成本管理

数据治理与成本管理之间是相辅相成的

2022-09-15 16:38:31 591

原创浅谈数据质量

数据质量

2022-09-14 17:46:05 905 2

原创数据指标体系建设方法

建立数据指标体系，可以帮助产品经理更好地梳理、理解业务，并发现业务过程中出现的问题，进而推动产品的迭代优化。那么，数据指标体系应该如何建立？本篇文章里，作者就数据指标体系的整理方法进行了总结，一起来看一下。

2022-09-14 17:05:05 441

原创大数据架构发展的20年

本文作者来自阿里巴巴计算平台部门，深度参与阿里巴巴大数据/数据中台领域建设，将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析，来阐述两者融合演进的新方向——湖仓一体，并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

2022-09-14 14:54:06 498

原创 Apache Doris 1.1 特性揭秘：Flink 实时写入如何兼顾高吞吐和低延时

Apache Doris 是一个高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。

2022-09-13 17:56:03 1261 1

翻译企业级-实时数仓架构图

实时即未来 - Flink分享会 - 北京站

2022-09-13 17:20:14 908

原创 hive中常用的日期处理函数

常用的日期函数

2022-09-13 15:23:19 4120

原创 sqoop总结

sqoop常用知识总结

2022-09-08 19:02:38 1050

原创第三部分：Spark调优篇

Spark优化包括：常规性能调优、算子调优、Shuffle调优、JVM调优、数据倾斜方面的调优等知识点

2022-09-06 17:28:37 3263

原创第二部分：Spark进阶篇

Spark进阶篇包括：SparkShuffle、容错机制、Checkpoint机制、广播变量、累加器、Kryo序列化、Spark数据本地化、SparkSql、SparkStreaming等知识点

2022-09-05 18:06:28 1924

原创第一部分：Spark基础篇

Spark基础篇包含：job运行流程、任务提交阶段、运行原理、与MR的区别、RDD、DAG、算子类等知识点

2022-09-05 18:02:44 7428

原创 hive中字符串查找函数 instr 和 locate

可用于优化join or关联匹配情况

2022-09-03 20:40:36 6930 1

原创优化join or情形

hive 中 left join 基于 or 形式匹配连接情形的时优化

2022-09-03 20:24:59 3051

原创 Linux常用命令

linux常用命令集

2022-08-27 11:00:15 611

原创浅析大数据常用技术框架

简单介绍Hadoop分布式处理框架生态圈相关组件

2022-08-25 22:35:17 278

原创浅谈数仓建模

大数据的数仓建模是通过建模的方法更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点。

2022-08-25 18:12:38 2019

原创企业级-数据治理体系建设

数据治理是指企业的数据架构、数据标准、数据质量、数据安全等领域的建设和管理的全流程。作为一个数据工作者，无论公司数据体量大或小，都应该具备数据治理的能力。

2022-08-24 19:26:14 1269

转载详解数据仓库、数据湖、数据中台和湖仓一体

在谈论数据中台之前，我们也听到过数据平台、数据仓库、数据湖的相关概念，它们都与数据有关系，但他们和数据中台有什么样的区别，下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。

2022-08-23 18:14:53 1753 1

原创数仓分层建设

每个公司的数仓分层各有不同，根据具体业务进行划分，但是万变不离其宗的

2022-08-23 17:53:07 1095

原创第三部分：Flink 源码篇

源码篇：包含了Flink中的Job提交流程、实际中优化的原理等考察点

2022-08-22 22:33:17 1072 1

原创第二部分：Flink 进阶篇

进阶篇：包含了Flink中的如何保证Exactly-Once语义、Watermark机制、容错机制、状态机制、重启策略、分区策略、序列化、内存模型、反压等实际生产环境中遇到的问题等考察点

2022-08-22 22:31:31 1146 1

原创第一部分：Flink基础篇

基础篇：包含了Flink中的原理、特点、发展时间线、集群角色、与Spark Streaming对比、任务提交流程、FlinkCDC、批流一体、CEP机制等知识点

2022-08-21 21:58:59 1673 1

原创浅谈Hive数据仓库之拉链表

**Hive数据仓库之拉链表**本篇分享总体结构：①.先分享一下拉链表的用途、什么是拉链表。②.通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。③.举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）。④.分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别。1.到底什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式

2022-02-25 19:59:46 1728 2

原创 Flink背压机制

背压，归根结底就是为了让实施消费的数据和处理在流式处理系统中，如果出现下游消费的速度跟不上上游生产数据的速度，就种现象就叫做背压(backpressure,有人叫反压，不纠结，本篇叫背压)。本篇主要以Flink作为流式计算框架来简单背压机制，为了更好理解，只做简单分享。2.背压产生的原因下游消费的速度跟不上上游生产数据的速度，可能出现的原因如下：（1）节点有性能瓶颈，可能是该节点所在的机器有网络、磁盘等等故障，机器的网络延迟和磁盘不足、频繁GC、数据热点等原因。（2）数据源生产数据的速度过快，计算

2021-10-19 18:07:42 4011 1

空空如也

关于#hive#的问题：count distinct 和 count group by 哪个执行速度更快

2022-09-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除