![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 95
本专栏记载工作中用到的大数据组件,以及遇到的问题与经验总结分享
一切如来心秘密
目前从事大数据领域后台开发,完善数据平台相关产品生态,包括数据开发平台,数据质量,元数据系统,离线调度系统,标签系统,统一权限管理系统等产品的设计与研发工作。
学有涯而知无涯,在技术上保持谦卑,在生活中一路高歌,记录点滴,不忘初心,方得始终~
展开
-
Flink SQL 实时读取 kafka 数据写入 Clickhouse —— 日志处理(三)
本文总结了如何使用使用 Clickhouse 保存日志数据,以及如何通过 Flink SQL 将我们的日志实时从 kafka 同步至 clickhouse,然后在结合强大的第三方查询 BI 工具 superset,玩转业务日志,挖掘业务日志的潜在价值。本文设计到的技能知识点比较多,需要熟悉 Clickhouse, Kafka, FlinkSQL, Superset 等,我之前的文章中总结了一些关于 Clickhouse 和 Kafka 相关的内容,感兴趣的读者可以看看.原创 2024-07-21 18:22:05 · 725 阅读 · 0 评论 -
流式处理应用场景与流式计算处理框架选择建议
流式处理相关概念总结说明流式处理设计模式总结说明Kafka Streams 架构概览接下来的文章将介绍一些流式处理的实际应用场景以及我们该从哪些方面考虑选择哪些流式处理框架,目前比较流行的流式处理框架有很多,比如说 Flink, Spark Streaming, Kafka Streaming 等。原创 2024-07-04 09:19:48 · 789 阅读 · 0 评论 -
Kafka Streams 架构概览
在上篇文章中我介绍了关于流式处理设计模式相关的总结以及案例说明,为了更好地理解Streams的工作原理,需要深入了解并理解API背后的一些设计原则,本文将从架构设计层面对这些原则进行说明总结。原创 2024-07-03 08:55:47 · 1449 阅读 · 0 评论 -
流式处理设计模式总结说明
每一种流式处理系统都不一样——从基本的消费者、处理逻辑和生产者的组合,到使用了Spark Streaming和机器学习软件包的复杂集群,以及其他很多介于二者之间的系统。但不管怎样,还是有一些基本的设计模式和解决方案,它们是解决流式处理架构常见需求的解决方案。下面将介绍一些众所周知的模式,并举例说明如何使用它们。原创 2024-07-03 08:53:03 · 706 阅读 · 0 评论 -
流式处理相关概念总结说明
人们对流式处理的理解非常混乱。有太多关于流式处理的定义,它们混淆了实现细节、性能需求、数据模型和软件工程很多方面的东西。在关系数据库领域也面临类似的窘境,关系模型的抽象定义总是夹杂了数据库引擎的实现细节和特定局限性。流式处理还处在发展阶段,一些流行的实现方案的处理方式可能很特别,或者有特定的局限性,但这并不能说明它们的实现细节就是流式处理的固有组成部分。原创 2024-07-02 09:25:27 · 614 阅读 · 0 评论 -
kafka 实现精确一次性语义实践总结
Kafka的精确一次性语义与国际象棋正好相反:要理解它不容易,但用起来很简单。本文将介绍 Kafka 实现精确一次性语义的两个关键机制:幂等生产者(避免由重试机制导致的重复处理)和事务(Streams精确一次性语义的基础)。通过一个配置就可以启用它们,这样就可以很方便地在要求更少重复和更高正确性的应用程序中使用Kafka了。原创 2024-07-02 09:21:08 · 719 阅读 · 0 评论 -
保证 Kafka 数据可靠性最佳实践总结
可靠性是系统而不是某个独立组件的一个属性,所以,在讨论Kafka的可靠性保证时,需要从系统的整体出发。说到可靠性,那些与Kafka集成的系统与Kafka本身一样重要。正因为可靠性是系统层面的概念,所以它不只是某个个体的事情。Kafka管理员、Linux系统管理员、网络和存储管理员,以及应用程序开发者,所有人必须协同作战才能构建出一个可靠的系统。Kafka在数据传递可靠性方面具备很大的灵活性,它可以被应用在很多场景中——从跟踪用户点击动作到处理信用卡支付操作。原创 2024-07-01 09:03:59 · 655 阅读 · 0 评论 -
通过 API 接口管理 Kafka
除了通过命令行和可视化界面对 kafka 进行管理,也可以通过的 API 对 kafka 进行管理。本文将介绍如何通过进行 kafka 管理:主题管理、消费者群组管理和配置管理。原创 2024-06-27 09:56:21 · 900 阅读 · 0 评论 -
kafka 消费者 API 使用总结
应用程序使用KafkaConsumer向Kafka订阅主题,并从订阅的主题中接收消息。不同于从其他消息系统读取数据,从Kafka读取数据涉及一些独特的概念和想法。如果不先理解这些概念,则难以理解如何使用消费者API。本文将先解释这些重要的概念,然后再举几个例子,演示如何使用消费者API实现不同的应用程序。原创 2024-06-26 09:43:53 · 1156 阅读 · 0 评论 -
kafka 生产者 API 实践总结
kafka 对外提供的 API 主要有两类:生产者 API 和 消费者 API,本文将从Kafka生产者的设计和组件讲起,学习如何使用Kafka生产者。将首先演示如何创建KafkaProducer对象和ProducerRecords对象、如何将记录发送给Kafka,以及如何处理Kafka返回的错误响应。然后介绍用于控制生产者行为的重要配置参数。最后深入探讨如何使用不同的分区方法和序列化器,以及如何自定义序列化器和分区器。原创 2024-06-25 11:05:30 · 1202 阅读 · 0 评论 -
元数据管理和数据目录对于现代数据平台的重要性——Lakehouse架构(四)
Lakehouse 架构中的存储层负责存储整个平台的数据,要查询存储的这些数据,我们需要一个数据目录来帮助用户查询、检索和发现这些数据。本文将对元数据、元存储和数据目录等重要概念进行说明。原创 2024-04-19 09:18:17 · 1107 阅读 · 1 评论 -
数据血缘对于数据平台的重要性
数据血缘是一个元数据地图,它跟踪数据管道中上游和下游依赖之间的关系,以说明数据的来源、变化方式以及向用户最终展示的位置。通俗的讲,数据血缘就是映射关系:数据来自哪里、数据在整个管道中移动时如何变化以及向最终消费者展示的位置构建完毕,数据血缘将给数据团队带来极大的价值。有时与数据映射(跨模型组合数据字段的过程)相混淆,数据血缘提供了数据如何在环境中移动的可视化。了解特定资产的变化将如何影响下游依赖关系,因此他们不必盲目工作,也不必冒给未知利益相关者带来不受欢迎的意外的风险。原创 2024-04-19 09:04:23 · 891 阅读 · 0 评论 -
湖仓一体(Lakehouse)架构的核心组件之存储层——Lakehouse 架构(三)
存储层是任何数据平台的核心,在基于lakehouse架构的平台中,它对于高效持久化各类数据、提高查询引擎的性能发挥着重要作用。Lakehouse存储层由云存储、文件格式和表格式组成。本文将说明与 Lakehouse 存储相关的基本概念、行式存储和列式存储之间的区别,以及存储格式是如何与性能密切相关的。然后,将深入探讨用于数据分析场景的存储格式、使用每种格式的好处以及构建数据平台时应考虑的关键功能。了解了上边的概念后将讨论湖仓一体中的开放表格式,包括其功能和优点,以及在使用的时候需要注意的地方。原创 2024-04-18 17:57:22 · 1295 阅读 · 0 评论 -
传统大数据架构与现代数据平台的期望——Lakehouse 架构(二)
本文概述了传统数据架构:数据仓库和数据湖,以及现代数据平台的期望,和新兴数据架构 Lakehouse 的详细介绍说明,架构没有好坏只有合适与否,但是个人认为湖仓一体架构 Lakehouse 将在未来数据平台的架构设计中占有强大的竞争力。本文概述了传统数据架构:数据仓库和数据湖,以及现代数据平台的期望,和超新星数据架构 Lakehouse 的简单优点介绍,上云是大势所趋,笔者认为在未来大数据架构会越来越简单,可以让各行各业都能感受到数据带来的价值,以及大数据带来的魅力。原创 2024-04-18 06:00:00 · 2222 阅读 · 0 评论 -
新型大数据架构之湖仓一体(Lakehouse)架构特性说明——Lakehouse 架构(一)
数据仓库和数据湖一直是实现数据平台最流行的架构,然而,过去几年,社区一直在努力利用不同的数据架构方法来实现数据平台。本文就是对当下非常流行的湖仓一体架构的特性说明。原创 2024-04-17 18:45:46 · 2267 阅读 · 0 评论 -
构建数据平台架构指导原则与平台核心组件说明
湖仓一体是最近几年非常流行的现代大数据架构,目前它已经成为设计数据平台架构的首要选择。在本文中,我将介绍与数据架构、数据平台及其核心组件相关的基本概念,以及数据架构是如何帮助构建数据平台的。然后,我将解释为什么需要像 Lakehouse 这样的新架构模式、Lakehouse 基础知识、其特征以及使用 Lakehouse 架构实现数据平台的好处。数据平台是使用所选技术堆栈实现数据架构的最终结果,是定义我们要构建的系统的蓝图。原创 2024-04-17 18:39:35 · 1051 阅读 · 0 评论 -
Apache Paimon 流式湖仓介绍说明
Apache Flink 自诞生以来经历了重大演变,如今,它不仅充当批处理和流数据处理的统一引擎,而且为迈向新时代铺平了道路:流式数据湖。Apache Flink 的概念是动态表,与数据库中的物化视图类似,但是,动态表不能直接查询,因此社区提出使用中间表进行查询,就演变出了 Paimon。原创 2024-04-15 23:22:57 · 1119 阅读 · 0 评论 -
数据湖技术选型——Flink+Paimon 方向
本文结合 Flink 对几大数据湖选型进行了对比,最终选择使用 Flink + Paimon 技术栈。原创 2024-04-15 23:20:32 · 1342 阅读 · 0 评论 -
OLTP 与 OLAP 系统说明对比和大数据经典架构 Lambda 和 Kappa 说明对比——解读大数据架构(五)
本文我们将研究不同类型的大数据架构设计,将讨论 OLTP 和 OLAP 的系统设计,以及有效处理数据的策略包括 SMP 和 MPP 等概念。然后我们将了解经典的 Lambda 架构和 Kappa 架构。原创 2024-04-14 16:55:51 · 997 阅读 · 1 评论 -
大数据存储解决方案和处理流程——解读大数据架构(四)
在数字时代,数据已成为公司的命脉。但是,仅仅拥有数据是不够的,数据真正的价值在于如何有效地管理、存储和处理。管理数据的组件就像复杂机器中的齿轮,每个都有自己的职责,但又同步工作实现共同的目标。本文将从一些最实用的存储解决方案开始说起,包括数据集市、可实操的数据存储方案和数据中心。以及有效管理和利用数据所涉及的广泛流程,还会讨论主数据管理数据虚拟化数据目录和数据市场等概念。原创 2024-04-14 11:57:14 · 1235 阅读 · 0 评论 -
数据湖概述与层级和文件夹划分总结——解读大数据架构(三)
本文对数据湖进行了概述,讨论了什么叫数据湖以及通过与传统数据仓库对比,说明了为啥要选择数据湖,数据湖的好处是什么。数据湖的构建与传统的数据仓库的构建方式不同,数据湖采用的是自下而上的构建方式,这种构建方式可以使不同源数据快速入湖,第一时间挖掘数据的价值。同时我们也讨论了数据湖在逻辑上的层级划分,以及在物理上的文件夹的结构改如何划分。原创 2024-04-13 15:23:26 · 1031 阅读 · 0 评论 -
大数据架构之关系型数据仓库——解读大数据架构(二)
本文对关系型数据仓库(RDW)进行了简要的介绍说明,包括什么是关系型数据仓库,以及为什么要使用关系型数据仓库,其优缺点有哪些,如何增量更新数据等,最后还讨论了关系型数据仓库是否会消失的问题,以及哪些人会继续使用关系型数据仓库。关系型数仓(RDW是集中存储和管理从多个数据源复制的大量结构化数据的地方,用于历史和趋势分析报表,以便公司可以做出更好的业务决策。之所以称为关系型,是因为它基于关系模型,这是一种广泛使用的数据库数据表示和组织方法。在关系模型中,数据被组织成表(也称为关系)。原创 2024-04-12 12:26:12 · 1822 阅读 · 0 评论 -
大数据架构的演变与多种大数据架构类型说明——解读大数据架构(一)
在搭建和使用大数据组件前,预先投入时间设计和构建正确的数据架构绝对至关重要。如果在前期没有设计正确的数据架构就开始实施方案,在后期想更改架构设计是十分困难的。但是又不存在放之四海而皆准的架构,架构没有好坏之分,只有合适与不合适之分,需要根据具体的情况选择最合适的架构。但是好在目前已经有很多成熟的数据架构方案,本文主要简单介绍多种数据架构类型:关系数据仓库、数据湖、现代数据仓库、数据网络、数据湖仓和数据网格。原创 2024-04-12 00:17:16 · 1795 阅读 · 0 评论 -
Spark 应用程序优化和调优总结
本文总结了 Spark 中比较重要和常用的调优手段,包括设置并优化 Spark 程序的默认配置,来改进大型任务的工作负载和并行度,从而减少 Spark executor 内存不足的问题。以及如何使用适当的缓存和持久化策略来增加对常用数据集的访问速度。还有说明了在操作复杂聚合时常用的两种连接方式,以及如何设置合理的排序键来进行分桶,尽量减少 shuffle 操作等优化手段。原创 2024-04-11 08:50:59 · 1107 阅读 · 0 评论 -
通过 Spark SQL 和 DataFrames 与外部数据源交互
Spark 和 Hive 都会使用到的 UDF 函数通过 JDBC 连接各种外部数据源简单和复杂的数据类型和各种高阶运算符还将了解使用Spark SQL查询Spark的一些不同工具,例如Spark SQL shell、Beeline和Tableau。本文探讨了Spark SQL如何与外部组件接口。我们讨论了创建用户定义函数,包括Pandas udf,并提供了一些执行Spark SQL查询的选项(包括Spark SQL shell、Beeline和Tableau)。原创 2024-04-09 17:37:47 · 1199 阅读 · 0 评论 -
通过 Spark SQL 和 DataFrame 操作表和多种内部数据源总结
本文将探讨 Spark 中 Spark SQL 接口是如何与其他外部组件交互的。为 Spark 上层结构化 API (DataSet, DataFram)提供查询引擎可以读写各种结构化格式的数据(如JSON、Hive表、Parquet、Avro、ORC、CSV)。允许我们使用JDBC/ODBC连接器从外部商业智能(BI)数据源(如Tableau, Power BI, Talend)或rdbms(如MySQL和PostgreSQL)查询数据。原创 2024-04-09 17:35:06 · 1249 阅读 · 0 评论 -
Spark 的结构化 APIs——RDD,DataFrame, Dataset, SparkSQL 使用和原理总结
在本文中,我们将探索 Spark 的结构化 APIs(DataFrames and Datasets)。我们还将看下 Spark SQL 引擎是如何支撑高级的结构化 APIs 的。当Spark SQL在早期的Spark 1.x 中首次引入时, 随后是DataFrames继承了Spark 1.3中SchemaRDDs,此时我们第一次看到了Spark中的结构化 API。原创 2024-04-03 06:00:00 · 1202 阅读 · 0 评论 -
Spark 部署与应用程序交互简单使用说明
在本章中,我们介绍了开始使用Apache Spark所需的三个简单步骤:下载框架,熟悉Scala或PySpark交互shell,掌握高级Spark应用程序概念和术语。我们快速概述了使用转换和操作来编写Spark应用程序的过程,并简要介绍了使用Spark UI来检查所创建的job、stage和task。最后,通过一个简短的示例,展示了如何使用高级结构化api来告诉Spark要做什么——在下一篇文章我将更详细地介绍这些api。原创 2024-04-02 14:46:54 · 1349 阅读 · 1 评论 -
Spark 起源发展与项目架构说明
本文主要讲解 Spark 的起源及其基本理念,Spark 项目的主要组件及其分布式体系结构。原创 2024-04-02 09:31:45 · 1032 阅读 · 0 评论 -
Hive 中的数据模型分析
Hive 可以说是 Hadoop 生态中比较坚挺的一个组件了,在大数据架构飞速发展的今天,各种组件也是层出不穷,随着k8s 云原生的发展,跟不上云原生脚步的组件也必将被淘汰。Hive 也逃脱不了被 SparkSQL 替代的命运,但是学习掌握 Hive 的数据模型还是很有必要的。技术发展之快,让人不得不感慨一将功成万骨枯!原创 2023-07-07 18:03:36 · 835 阅读 · 0 评论 -
列式存储工具 HBase 总结——大数据组件
HBase是一种开源的、分布式的非关系型数据库,它构建在Apache Hadoop之上。HBase被设计用于存储和处理大规模的结构化数据。本文就是对 HBase 的架构设计的总结。原创 2023-07-05 18:13:42 · 1311 阅读 · 0 评论 -
Hadoop集群搭建
文章目录Hadoop集群部署1.Hadoop集群规划2.前置安装3.JDK安装4Hadoop集群部署5.作业提交到Hadoop集群运行Hadoop集群部署1.Hadoop集群规划节点配置ip映射:node1, 修改/etc/hosts:10.0.194.30 node110.0.195.109 node210.0.194.59 node310.0.194.30 localhostnode2, 修改/etc/hosts:10.0.194.30 nod原创 2021-06-30 15:20:04 · 277 阅读 · 0 评论 -
HDFS 客户端与节点间读写与checkpoint流程图总结
文章目录HDFS写数据流程图HDFS读数据流程图HDFS 元数据管理与checkpointHDFS写数据流程图客户端会根据配置文件将需要写入的文件切分为多个block, 例如将 jdk.tar.gz 切分为 block1 和 block2客户端首先向NN发送写数据的请求, 当请求同意后,客户端会向NN发送请求写入block1,NN会告知客户端block1将被写入哪些DN(DN1, DN2, DN3)然后客户端会找将写入的第一个DN建立数据传输的连接,然后第一个DN再与第二个将要写入的DN原创 2021-06-24 09:11:29 · 493 阅读 · 0 评论