大数据技术与数仓-CSDN博客

原创实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异，但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo，涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到：实时数仓的基本架构实时数仓的数据处理流程Flink1.11的SQL新特性Flink1.11存在的bug完整的操作案例古人学问无遗力，

2020-08-16 23:11:17 1803 2

转载大数据、数仓、Flink、spark、机器学习视频文档资料分享

关注【大数据技术与数仓】免费领取大数据视频与书籍回复：【资料】，获取链接地址分享并转移具有实践意义的大数据知识大数据技术视频01关注公众号回复：资料Flink视频02关注公众号回复：资料机器学习视频03关注公众号回复：资料数据结构与算法04关注公众号回复：...

2020-05-08 13:01:37 356

原创关于构建数据仓库的几个问题

写在前面数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。近年来，随着大数据的应用不断深入，构建企业级数据仓库成为了企业进行精细化运营的一种趋势。从管理者的视角来看，数据仓库是赋能业务并辅助决策的一种工具，从开发者的视角来看，数据仓库是一堆数据模型的集合。数仓开发是一个系

2021-03-15 15:17:25 1759

原创实时数仓|以upsert的方式读写Kafka数据——以Flink1.12为例

在某些场景中，比如GROUP BY聚合之后的结果，需要去更新之前的结果值。这个时候，需要将 Kafka 消息记录的 key 当成主键处理，用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中，可以通过 flink-cdc-connectors 项目提供的 **changelog-json format **来实现该功能。关于该功能的使用，见之前的分享Flink1.11中的CDC Connectors操作实践。在Flink1.12版本中，新增了一个 upsert connecto

2021-01-13 16:30:20 6406 2

原创 Flink on Hive构建流批一体数仓

Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎，也可以通过流处理的方式来读写Hive中的表，从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例，介绍Flink集成Hive的另外一个非常重要的方面——Hive维表JOIN(Temporal Table Join)与Flink读写Hive表的方式。以下是全文，希望本文对你有所帮助。公众号『大数据技术与数仓』，回复『资料』领取大数据资料

2021-01-05 21:13:44 1805

原创 Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12

在上一篇分享Flink集成Hive之快速入门–以Flink1.12为例中，介绍了Flink集成Hive的进本步骤。本文分享，将继续介绍Flink集成Hive的另外两个概念：Hive Catalog与Hive Dialect。本文包括以下内容，希望对你有所帮助。什么是Hive Catalog如何使用Hive Catalog什么是Hive Dialect如何使用Hive Dialect公众号『大数据技术与数仓』，回复『资料』领取大数据资料包什么是Hive Catalog我们知道，Hive使

2020-12-22 09:43:25 1392

原创 Flink集成Hive之快速入门--以Flink1.12为例

使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前，一些比较常见的大数据处理引擎，都无一例外兼容Hive。Flink从1.9开始支持集成Hive，不过1.9版本为beta版，不推荐在生产环境中使用。在Flink1.10版本中，标志着对 Blink的整合宣告完成，对 Hive 的集成也达到了生产级别的要求。值得注意的是，不同版本的Flink对于Hive的集成有所差异，本文将以最新的Flink1.12版本为例，阐述Flink集成Hive的简单步骤，以下是全文，希望对你有所帮助。公众号『大数据技术

2020-12-21 09:37:21 6295 1

原创数仓开发需要了解的5大SQL分析函数

公众号『大数据技术与数仓』，回复『资料』领取大数据资料包基本语法analytic_function_name([argument_list])OVER ([PARTITION BY partition_expression,…][ORDER BY sort_expression, … [ASC|DESC]])analytic_function_name: 函数名称 — 比如 RANK(), SUM(), FIRST()等等partition_expression: 分区列sort_e.

2020-11-24 13:55:42 264

原创第十一篇|基于SparkSQL的电影分析项目实战

在之前的分享中，曾系统地介绍了Spark的基本原理和使用方式，感兴趣的可以翻看之前的分享文章。在本篇分享中，将介绍一个完整的项目案例，该案例会真实还原企业中SparkSQL的开发流程，手把手教你构建一个基于SparkSQL的分析系统。为了讲解方便，我会对代码进行拆解，完整的代码已上传至GitHub，想看完整代码可以去clone，记得给个Star。以下是全文，希望本文对你有所帮助。https://github.com/jiamx/spark_project_practise公众号『大数据技术与数仓』，

2020-11-23 13:29:21 3457 3

原创篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)

本文分享主要是ClickHouse的数据导入方式，本文主要介绍如何使用Flink、Spark、Kafka、MySQL、Hive将数据导入ClickHouse，具体内容包括：使用Flink导入数据使用Spark导入数据从Kafka中导入数据从MySQL中导入数据从Hive中导入数据使用Flink导入数据本文介绍使用 flink-jdbc将数据导入ClickHouse，Maven依赖为：<dependency> <groupId>org.apache.fli

2020-11-18 10:18:05 2643 1

原创第十篇SparkStreaming手动维护Kafka Offset的几种方式

Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器，而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次，保证语义一致性。但是当作业发生故障或重启时，要保障从当前的消费位点去处理数据(即Exactly Once语义)，单纯的依靠SparkStreaming本身的机制是不太理想的，生产环境中通常借助手动管理offset的方式来维护kafka的消费位点。本文分享将介绍如何手动管理Kafka

2020-11-12 17:04:13 601 2

原创 Spark的五种JOIN策略解析

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素Spark中JOIN执行的5种策略Spark是如何选择JOIN策略的影响JOIN操作的因素数据集的大小参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样，也会影响JOIN机制的选择和JOIN的执行效率。JOIN的条件JOIN的条件会涉及字段之间的逻辑比较。根

2020-11-03 22:17:28 1763

原创 Spark SQL百万级数据批量读写入MySQL

Spark SQL读取MySQL的方式Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，应优先使用此功能。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python，因为它不需要用户提供ClassTag。可以使用Data Sources API将远程数据库中的表加载为DataFrame或Spark SQL临时视图。用户可以在数据源选项中指定JDBC连接属性。 user

2020-11-03 22:05:37 4346 1

原创篇四|ClickHouse的可视化界面与集群状态监控

介绍tabix支持通过浏览器直接连接 ClickHouse，不需要安装其他软件，就可以访问ClickHouse，具有以下特点：⾼亮语法的编辑器。⾃动命令补全。查询命令执⾏的图形分析⼯具。配⾊⽅案选项。除此之外，还可以使用DBeaver连接ClickHouse，本文主要介绍这两种工具的使用方式。方式1：不安装，直接使用浏览器访问地址为：https://github.com/tabixio/tabix。在浏览器打开下面链接http://ui.tabix.io/进入该链接后，界面如下：

2020-10-26 10:10:11 3935 1

原创篇三|ClickHouse的数据类型

ClickHouse提供了许多数据类型，它们可以划分为基础类型、复合类型和特殊类型。我们可以在system.data_type_families表中检查数据类型名称以及是否区分大小写。SELECT * FROM system.data_type_families上面的系统表，存储了ClickHouse所支持的数据类型，注意不同版本的ClickHouse可能数据类型会有所不同，具体如下表所示：┌─name────────────────────┬─case_insensitive─┬─alias_to

2020-10-14 21:31:31 5486

原创篇二|什么是ClickHouse的表引擎?

在上一篇分享中，我们介绍了ClickHouse的安装部署和简单使用。本文将介绍ClickHouse中一个非常重要的概念—表引擎(table engine)。如果对MySQL熟悉的话，或许你应该听说过InnoDB和MyISAM存储引擎。不同的存储引擎提供不同的存储机制、索引方式、锁定水平等功能，也可以称之为表类型。ClickHouse提供了丰富的表引擎，这些不同的表引擎也代表着不同的表类型。比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。本文会对ClickHouse中常见的表引擎进行介绍，主要包括

2020-09-21 21:38:04 2188 2

原创篇一|ClickHouse快速入门

ClickHouse简介ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品，主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse，简称ClickHouse。ClickHouse非常适用于商业智能领域，除此之外，它也能够被广泛应用于广告流量、Web、App流量、电信、金融、电子商务、信息安全、网络游戏、物联网等众多其他领域。ClickHouse具有以下

2020-09-13 21:26:40 1525

原创面试|Kafka常见面试问题总结

现如今，Kafka已不再是一个单纯的消息队列系统。Kafka是一个分布式的流处理平台，被越来越多的公司使用，Kafka可以被用于高性能的数据管道，流处理分析，数据集成等场景。本文分享总结了几个Kafka常见的面试问题，希望对你有所帮助。主要包括以下内容：Kafka是如何保障数据不丢失的？如何解决Kafka数据丢失问题？Kafka可以保障永久不丢失数据吗？如何保障Kafka中的消息是有序的？如何确定Kafka主题的分区数量？如何调整生产环境中Kafka主题的分区数量？

2020-09-12 15:05:58 614

原创 Hive SQL使用过程中的奇怪现象

hive是基于Hadoop的一个数据仓库工具，用来进行数据的ETL，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive SQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同。公众号『大数据技术与数仓』，回复『资料』领取大数据资料包两个整数除除法是SQL引擎难以解释的算术运

2020-09-12 15:04:52 705

原创使用SQL窗口函数进行商务数据分析

本文会从一个商务分析案例入手，说明SQL窗口函数的使用方式。通过本文的5个需求分析，可以看出SQL窗口函数的功能十分强大，不仅能够使我们编写的SQL逻辑更加清晰，而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders，操作过程在Hive中完成，具体数据如下：-- 建表CREATE TABLE orders( order_id int, customer_id string, city string, add_time string,

2020-09-06 16:57:55 326

原创项目实践|基于Flink的用户行为日志分析系统

用户行为日志分析是实时数据处理很常见的一个应用场景，比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统，包括架构设计与代码实现。本文分享将完整呈现日志分析系统的数据处理链路，通过本文，你可以了解到：基于discuz搭建一个论坛平台Flume日志收集系统使用方式Apache日志格式分析Flume与Kafka集成日志分析处理流程架构设计与完整的代码实现项目简介本文分享会从0到1基于Flink实现一个实时的用户行为日志分析系统，基本架构图如下：首先会先搭建一

2020-08-30 21:35:17 1617

原创元数据管理|Hive Hooks和Metastore监听器介绍

元数据管理是数据仓库的核心，它不仅定义了数据仓库有什么，还指明了数据仓库中数据的内容和位置，刻画了数据的提取和转换规则，存储了与数据仓库主题有关的各种商业信息。本文主要介绍Hive Hook和MetaStore Listener，使用这些功能可以进行自动的元数据管理。通过本文你可以了解到：元数据管理Hive Hooks 和 Metastore ListenersHive Hooks基本使用Metastore Listeners基本使用元数据管理元数据定义按照传统的定义，元数据（ Metad

2020-08-22 16:24:00 2762 3

原创 SQL查询的底层运行原理分析

SQL 语言无处不在。SQL 已经不仅仅是技术人员的专属技能了，似乎人人都会写SQL，就如同人人都是产品经理一样。如果你是做后台开发的，那么CRUD就是家常便饭。如果你是做数仓开发的，那么写SQL可能占据了你的大部分工作时间。我们在理解 SELECT 语法的时候，还需要了解 SELECT 执行时的底层原理。只有这样，才能让我们对 SQL 有更深刻的认识。本文分享将逐步分解SQL的执行过程，希望对你有所帮助。数据准备本文旨在说明SQL查询的执行过程，不会涉及太复杂的SQL操作，主要涉及两张表：citize

2020-08-22 15:25:11 334

原创 Flink1.11中的CDC Connectors操作实践

Flink1.11引入了CDC的connector，通过这种方式可以很方便地捕获变化的数据，大大简化了数据处理的流程。Flink1.11的CDC connector主要包括：MySQL CDC和Postgres CDC,同时对Kafka的Connector支持canal-json和debezium-json以及changelog-json的format。本文主要分享以下内容：CDC简介Flink提供的 table format使用过程中的注意点mysql-cdc的操作实践canal-json的操

2020-08-13 22:53:59 6591 12

原创内含面试|一文搞懂HBase的基本原理

本文会对HBase的基本原理进行剖析，通过本文你可以了解到：CAP理论NoSQL出现的原因HBase的特点及使用场景HBase的数据模型和基本原理客户端API的基本使用易混淆知识点面试总结温馨提示:本文内容较长，如果觉得有用，建议收藏。另外记得分享、点赞、在看，素质三连哦！从BigTable说起HBase是在谷歌BigTable的基础之上进行开源实现的，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，可以用来存储非结构化和半结构化的稀疏数据。HBase支持超大规模数据存储，可以通过

2020-08-12 22:58:19 474

原创数仓开发应避免的10个陷阱

在Ralph Kimball和Margy Ross 的《数据仓库工具包》一书中，提到了数据仓库设计中的10个常见陷阱，本文针对每个陷阱添加了一条与数据仓库设计经验有关的附加解释。在着手进行数据仓库项目之前，可以了解一下数这10个常见陷阱。这样才可以不被数据仓库设计的陷阱所困扰，避免这10个常见的陷阱可以在构建数仓的过程少走些弯路。陷阱10:过于迷恋技术和数据，而没有将重点放在业务需求和目标上。数仓归根结底是要解决业务问题的，狂拽酷炫的数据架构和层出不穷的新技术通常会比去了解用户需求更具有吸引力。其实

2020-08-07 23:15:23 303

原创实时数仓|Flink SQL之维表join

维表是数仓中的一个概念，维表中的维度属性是观察数据的角度，在建设离线数仓的时候，通常是将维表与事实表进行关联构建星型模型。在实时数仓中，同样也有维表与事实表的概念，其中事实表通常存储在kafka中，维表通常存储在外部设备中(比如MySQL，HBase)。对于每条流式数据，可以关联一个外部维表数据源，为实时计算提供数据关联查询。维表可能是会不断变化的，在维表JOIN时，需指明这条记录关联维表快照的时刻。需要注意是，目前Flink SQL的维表JOIN仅支持对当前时刻维表快照的关联(处理时间语义)，而不支持事实

2020-08-07 23:13:52 2972 1

原创 LeeCode数据库部分题目汇总

LeeCode数据库部分SQL题目总结176. 第二高的薪水描述编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）IdSalary110022003300例如上述 Employee 表，SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水，那么查询应返回 nullSecondHighestSalary200数据准备Create table If Not Exists Employe

2020-08-07 23:06:34 991

原创 Hive的条件函数与日期函数全面汇总解析

在Hive的开窗函数实战的文章中，主要介绍了Hive的分析函数的基本使用。本文是这篇文章的延续，涵盖了Hive所有的条件函数和日期函数，对于每个函数，本文都给出了具体的解释和使用案例，方便在工作中查阅。条件函数assert_true(BOOLEAN condition)解释如果condition不为true，则抛出异常，否则返回null使用案例select assert_true(1<2) -- 返回nullselect assert_true(1>2) -- 抛出异常

2020-08-07 23:04:24 849

原创 Hive的架构剖析

本文主要介绍Hive的架构和以及HQL的查询阶段，主要内容包括：Hive的架构架构中的相关组件介绍HQL的查询阶段Hive的架构hive的基本架构图如下图所示：相关组件介绍数据存储Hive中的数据可以存储在任意与Hadoop兼容的文件系统，其最常见的存储文件格式主要有ORC和Parquet。除了HDFS之外，也支持一些商用的云对象存储，比如AWS S3等。另外，Hive可以读入并写入数据到其他的独立处理系统，比如Druid、HBase等。Data catalogHive使用

2020-08-07 23:02:25 256

原创 Flink的时间与watermarks详解

当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在 Flink 中 Time 可以分为三种：Event-Time，Processing-Time 以及 Ingestion-Time，如下图所示

2020-08-07 22:51:32 1699 1

原创 Flink Table API&SQL编程指南之时间属性(3)

Flink总共有三种时间语义：Processing time(处理时间)、Event time(事件时间)以及Ingestion time(摄入时间)。关于这些时间语义的具体解释，可以参考另一篇文章Flink的时间与watermarks详解。本文主要讲解Flink Table API & SQL中基于时间的算子如何定义时间语义。通过本文你可以了解到：时间属性的简介处理时间事件时间时间属性简介Flink TableAPI&SQL中的基于时间的操作(如window)，需要指定时间语

2020-08-07 22:45:53 484

原创 Flink Table API & SQL编程指南之动态表(2)

在Flink Table API & SQL编程指南(1)一文中介绍了Flink Table API &SQL的一些基本的概念和通用的API，在本文将会更加深入地讲解Flink Table API &SQL的流处理的基本概念。Flink Table API &SQL是实现了批流处理的统一，这也意味着无论是有界的批处理输入还是无界的流处理输入，使用Flink Table API &SQL进行查询操作，都具有相同的语义。此外，由于SQL最初是为批处理而设计的，所有在无界流

2020-08-07 22:44:02 351

原创数仓面试|四个在工作后才知道的SQL密技

SQL是大数据从业者的必备技能，大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域，使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧，具体包括：日期与期间的使用临时表与Common Table Expression (WITH)Aggregation 与CASE WHEN的结合使用Window Function的其他用途数仓？不就是写写SQL吗… [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来

2020-08-07 13:46:02 373

原创第七篇|Spark平台下基于LDA的k-means算法实现

本文主要在Spark平台下实现一个机器学习应用，该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到：文本挖掘的基本流程LDA主题模型算法K-means算法Spark平台下LDA主题模型实现Spark平台下基于LDA的K-means算法实现1.文本挖掘模块设计1.1文本挖掘流程文本分析是机器学习中的一个很宽泛的领域，并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。文本聚类是信息检索领域的一个重要概念，在文本挖掘领域有着广泛的应

2020-08-04 22:47:02 1013

原创第六篇|Spark MLlib机器学习(1)

MLlib是Spark提供的一个机器学习库，通过调用MLlib封装好的算法，可以轻松地构建机器学习应用。它提供了非常丰富的机器学习算法，比如分类、回归、聚类及推荐算法。除此之外，MLlib对用于机器学习算法的API进行了标准化，从而使将多种算法组合到单个Pipeline或工作流中变得更加容易。通过本文，你可以了解到：什么是机器学习大数据与机器学习机器学习分类Spark MLLib介绍机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器

2020-08-03 22:50:41 696

原创第五篇|Spark-Streaming编程指南(2)

第四篇|Spark-Streaming编程指南(1)对Spark Streaming执行机制、Transformations与Output Operations、Spark Streaming数据源(Sources)、Spark Streaming 数据汇(Sinks)进行了讨论。本文将延续上篇内容，主要包括以下内容：有状态的计算基于时间的窗口操作持久化检查点Checkpoint使用DataFrames & SQL处理流数据有状态的计算updateStateByKey上一篇文章中

2020-08-02 18:50:45 313

原创第四篇|Spark Streaming编程指南(1)

Spark Streaming是构建在Spark Core基础之上的流处理框架，是Spark非常重要的组成部分。Spark Streaming于2013年2月在Spark0.7.0版本中引入，发展至今已经成为了在企业中广泛使用的流处理平台。在2016年7月，Spark2.0版本中引入了Structured Streaming，并在Spark2.2版本中达到了生产级别，Structured Streaming是构建在Spark SQL之上的流处理引擎，用户可以使用DataSet/DataFreame API进

2020-07-29 22:08:08 495 1

原创第三篇|Spark SQL编程指南

在《第二篇|Spark Core编程指南》一文中，对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块–Spark SQL，Spark SQL是在Shark的基础之上构建的，于2014年5月发布。从名称上可以看出，该模块是Spark提供的关系型操作API，实现了SQL-on-Spark的功能。对于一些熟悉SQL的用户，可以直接使用SQL在Spark上进行复杂的数据处理。通过本文，你可以了解到：Spark SQL简介DataFrame API&DataSet APICata

2020-07-29 22:02:19 372

原创第二篇|Spark core编程指南

在《第一篇|Spark概览》一文中，对Spark的整体面貌进行了阐述。本文将深入探究Spark的核心组件–Spark core，Spark Core是Spark平台的基础通用执行引擎，所有其他功能均建立在该引擎之上。它不仅提供了内存计算功能来提高速度，而且还提供了通用的执行模型以支持各种应用程序，另外，用户可以使用Java，Scala和Python API开发应用程序。Spark core是建立在统一的抽象RDD之上的，这使得Spark的各个组件可以随意集成，可以在同一个应用程序中使用不同的组件以完成复杂的

2020-07-23 09:46:19 254

基于Hive的项目实战用户数据集

基于Hive的项目实战视频原始数据集

greenplum5.9.0安装包，greenplum-cc-web安装包

greenplum集群安装部署

空空如也