匠人精神，持之以恒！

星光不问赶路人，时光不负有心人！

大数据

关注

文章平均质量分 95

关注数：文章数：89 文章阅读量：229783 文章收藏量：1522

作者: 大数据老司机

专注于大数据智能运维和大数据开发领域优质创作者

展开

Hadoop YARN Cgroups 资源隔离讲解

Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CPU、内存、磁盘 I/O 等）

原创 2023-12-24 17:45:09 · 1322 阅读 · 0 评论
Apache Kyuubi 讲解与实战操作

Apache Kyuubi，一个分布式多租户网关，用于在 Lakehouse 上提供无服务器 SQL。Kyuubi 是一个基于 Apache Spark 的开源分布式 SQL 引擎，为用户提供了一个统一的 SQL 查询接口，使其能够以标准 SQL 语法查询和分析各种数据源。

原创 2023-12-20 22:43:25 · 1587 阅读 · 1 评论
轻量级的日志采集组件 Filebeat 讲解与实战操作

Filebeat是一个轻量级的日志数据收集工具，属于Elastic公司的Elastic Stack（ELK Stack）生态系统的一部分。它的主要功能是从各种来源收集日志数据，将数据发送到Elasticsearch、Logstash或其他目标，以便进行搜索、分析和可视化。轻量级：Filebeat是一个轻量级的代理，对系统资源的消耗非常低。它设计用于高性能和低延迟，可以在各种环境中运行，包括服务器、容器和虚拟机。多源收集。

原创 2023-09-24 15:11:44 · 2272 阅读 · 1 评论
Trino 权限控制讲解与实战操作（资源分组）

Trino支持两种主要类型的权限控制：系统权限控制和文件权限控制。这两种类型的权限控制可以用于管理哪些用户或角色可以执行特定操作和访问特定资源。

原创 2023-09-18 00:04:21 · 540 阅读 · 0 评论
Trino HTTPS 与密码认证介绍与实战操作

Trino（以前称为Presto SQL或PrestoDB）支持TLS（传输层安全性）认证以确保在数据传输过程中的安全性。TLS认证是一种用于加密和保护数据传输的协议，它在客户端和服务器之间建立安全的通信通道，以防止中间人攻击和数据泄露。

原创 2023-09-17 13:10:26 · 406 阅读 · 0 评论
数仓 Hive HA 介绍与实战操作

在数据仓库中，是指为这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案，用于处理大规模数据的查询和分析。为了确保Hive服务的连续性和可用性，特别是在出现硬件故障、软件问题或其他中断情况时，实施Hive的高可用性解决方案非常重要。Hive HA通常涉及以下几个方面：元数据存储的高可用性：元数据存储在Hive Metastore中，其中包括表的结构、分区信息、表的位置等。为了确保元数据的高可用性，可以使用数据库复制、备份和恢复策略。

原创 2023-08-06 18:41:56 · 400 阅读 · 0 评论
Trino on k8s 编排部署进阶篇

Trino on Kubernetes（Trino在Kubernetes上的部署）是将Trino查询引擎与Kubernetes容器编排平台相结合，以实现在Kubernetes集群上部署、管理和运行Trino的解决方案。

原创 2023-07-16 20:30:00 · 978 阅读 · 0 评论
Hadoop on k8s 快速部署进阶精简篇

前面一篇文章已经很详细的介绍了Hadoop on k8s部署了，这里主要针对部署时可能会调整的地方和注意事项进行讲解，想详细了解详细部署过程可参考我上一篇文章：Hadoop on k8s 编排部署进阶篇

原创 2023-07-10 20:30:00 · 927 阅读 · 0 评论
Hadoop on k8s 编排部署进阶篇

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和处理。它使用了Hadoop分布式文件系统来存储数据，并通过MapReduce编程模型进行数据处理。Kubernetes（通常简称为K8s）是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。它提供了一种强大的方式来管理容器化应用程序的资源和生命周期。将Hadoop部署在Kubernetes上（通常称为或）是一种将Hadoop与Kubernetes结合使用的方式。它将Hadoop集群中的各个组件（如NameNode。

原创 2023-07-09 18:11:15 · 1037 阅读 · 0 评论
【大数据】通过 docker-compose 快速部署 MinIO 保姆级教程

MinIO 是一个开源的对象存储服务器，它兼容Amazon S3（Simple Storage Service）API。它被设计用于构建分布式存储架构，提供高可用性、高性能和可扩展的对象存储解决方案。

原创 2023-06-25 21:00:00 · 6132 阅读 · 0 评论
【大数据】通过 docker-compose 快速部署 ClickHouse 保姆级教程

ClickHouse是一种高性能、列式存储的分布式数据库管理系统。它专注于快速数据分析和查询，并且在大规模数据集上表现出色。

原创 2023-06-24 18:30:00 · 2099 阅读 · 0 评论
通过 docker-compose 快速部署 DolphinScheduler 保姆级教程

Apache DolphinScheduler（简称DolphinScheduler）是一种开源的、分布式的、易于使用的大数据工作流调度系统。它旨在为大数据处理提供一个可靠、高效和可扩展的调度解决方案。

原创 2023-06-20 21:30:00 · 2122 阅读 · 2 评论
Apache DolphinScheduler（海豚调度系统）介绍与环境部署

Apache DolphinScheduler（简称DolphinScheduler）是一种开源的、分布式的、易于使用的大数据工作流调度系统。它旨在为大数据处理提供一个可靠、高效和可扩展的调度解决方案。

原创 2023-06-18 19:21:36 · 5272 阅读 · 1 评论
通过 docker-compose 快速部署 Apache Ambari 保姆级教程

Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目，它是一个基于web的工具，用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件，包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等。

原创 2023-06-18 18:30:00 · 1330 阅读 · 0 评论
【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目，它是一个基于web的工具，用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件，包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等。

原创 2023-06-13 20:30:00 · 4242 阅读 · 2 评论
通过 docker-compose 快速部署 StarRocks 保姆级教程

StarRocks是一个开源的分布式OLAP（在线分析处理）数据库，旨在提供高性能、低延迟的数据分析和查询能力。它最初由中国的猎豹移动公司（Cheetah Mobile）开发，并于2016年开源。列式存储：StarRocks使用列式存储，将数据按列存储在磁盘上，以提高数据的压缩率和查询性能。列式存储有助于减少I/O开销和提高数据扫描效率。分布式架构：StarRocks基于分布式架构设计，可以水平扩展以处理大规模数据集。它支持数据分片和分布式计算，可以将数据和计算任务分布在多个节点上并行处理。多维数据模型。

原创 2023-06-12 20:30:00 · 2266 阅读 · 4 评论
通过 docker-compose 快速部署 Azkaban 保姆级教程

Apache Azkaban 是一个开源的批处理工作流调度系统，用于管理和调度Hadoop生态系统中的任务和作业。

原创 2023-06-11 18:15:05 · 789 阅读 · 0 评论
通过 docker-compose 快速部署 HBase 保姆级教程

HBase是一个开源的NoSQL列式分布式数据库，它主要基于Hadoop分布式文件系统（HDFS）运行。HBase最初是由Facebook公司贡献，其基于Google的Bigtable模型开发，在强大的水平扩展性和高可用性的基础上，提供了可以扩展垂直规模的存储。HBase列式存储HBase采用列式存储的方式来存储数据，它使用HDFS作为底层文件系统，并把数据存放到HDFS中的多个Region中，每个Region能够存储多行数据。这种存储方式使得HBase可以支持非常大的数据量，并且具有更好的写性能。

原创 2023-06-04 16:08:59 · 1152 阅读 · 0 评论
【大数据】Presto（Trino）REST API 与执行计划介绍

Presto（现在叫Trino）是一个分布式SQL查询引擎，它允许用户在多个数据源上执行查询。Presto本身是一个独立的Java程序，可以通过REST API与其他应用程序进行通信。Presto的REST API是一组HTTP接口，可以用于与Presto服务器进行通信，并提交查询请求、获取查询结果等。执行SQL查询：使用REST API，可以提交SQL查询请求，并从Presto服务器获取查询结果。获取查询进度：使用REST API，可以获取当前查询的进度和状态，例如查询已经执行的百分比、预计完成时间等。

原创 2023-05-19 21:54:44 · 1579 阅读 · 0 评论
【大数据】Presto（Trino）SQL 语法进阶

Presto（Trino）是一个快速、分布式的SQL查询引擎，可以用于查询各种数据源，包括Hadoop、NoSQL、关系型数据库等。下面是Presto（Trino）SQL语法的概述：SELECT：用于从一个或多个表中检索数据，指定所需的列和过滤条件。FROM：用于指定要查询的表名、子查询或视图，这些源可能跨越数据库和表格。JOIN：用于将两个或多个表格中的列连接到单个结果集中。WHERE：用于指定WHERE子句中定义的条件，以从原始数据集中筛选数据。GROUP BY：用于根据一个或多个列对结果集进行分组。

原创 2023-05-17 23:54:30 · 3495 阅读 · 0 评论
【大数据】Presto（Trino）配置参数以及 SQL语法

Trino(前身为PrestoSQL)是一款高性能，分布式的SQL查询引擎，可以用于查询各种类型的数据存储，包括HiveMysqlKafkaPostgreSQL等。节点和worker节点的数量: 这两个参数控制了Trino集群中管理查询的节点数量，它们的配合调整可以影响整个集群的查询效率。memory和cpu的分配: 这些参数控制了Trino在查询和计算时使用的内存和CPU数量。可以根据集群的实际硬件情况和查询工作负载来灵活配置。join分布式：控制join关键字的使用。

原创 2023-05-14 21:59:53 · 2571 阅读 · 0 评论
【大数据】通过 docker-compose 快速部署 Presto（Trino）保姆级教程

Presto是一个快速的分布式查询引擎，最初由Facebook开发，目前归属于 Presto Software Foundation（由 Facebook、Teradata 和其他公司共同支持）。Presto的核心特点是支持远程数据访问，可以查询包括Hadoop、Cassandra、Relational databases、NoSQL databases在内的多个数据源。Presto支持标准的SQL语法，同时提供了一些扩展功能，如分布式查询、动态分区、自定义聚合和分析函数等。

原创 2023-05-14 09:03:51 · 1282 阅读 · 1 评论
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。存储空间占用过多：在Hadoop生态系统中，每个小文件都将占用一定的存储空间，而且每个小文件也需要一个块来存储。如果存在大量的小文件，将浪费大量的存储空间。处理延迟：小文件数量过多，会引起大量IO操作，导致处理延迟。查询性能下降：小文件用于分区和表划分，可能导致查询延迟并降低查询性能。

原创 2023-05-10 22:25:47 · 631 阅读 · 0 评论
【大数据】yarn proxyserver 和 historyserver 讲解

Web应用程序代理是YARN的一部分。默认情况下，它将作为资源管理器（RM）的一部分运行，但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。在YARN中，应用主机（AM）有责任提供web UI并将该链接发送到RM。这引发了许多潜在的问题。RM以受信任用户的身份运行，访问该网址的人会将其及其提供给他们的链接视为受信任，而实际上AM是以不受信任用户身份运行的，并且它提供给RM的链接可能指向任何恶意或其他内容。

原创 2023-05-09 00:10:04 · 619 阅读 · 0 评论
【大数据】yarn 任务中的几种状态变化详细过程

在YARN中，应用程序和Container的状态变化会影响任务的执行和资源分配。

原创 2023-05-08 07:30:00 · 1269 阅读 · 1 评论
【大数据】Hive Join 的原理与机制

Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进行联合查询和分析。Hive 中的 Join 可分为（Reduce阶段完成join）和Map Join（Map 阶段完成 join）。数据分片：Hive将参与JOIN操作的表按照指定的JOIN条件进行分片。每个分片是表的一个子集，用于并行处理。Map阶段。

原创 2023-05-07 20:30:00 · 739 阅读 · 0 评论
【大数据】Hive DDL 操作与视图讲解

Hive是建立在Hadoop上的数据仓库工具，它允许用户通过类SQL的语法来查询和管理数据。在Hive中，DDL（数据定义语言）和视图操作是非常常见的。用语句来查看视图定义。总之，Hive中的DDL操作和视图操作可以帮助用户定义和管理表、视图等数据结构，从而更加灵活和高效地管理和查询数据。用户可以根据实际需求选择使用哪种操作方式，以达到更好的数据管理和操作效果。

原创 2023-05-05 23:36:13 · 561 阅读 · 0 评论
【大数据】Hive 内置函数和 UDF 讲解

Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来实现更加灵活的操作。除了Hive内置函数之外，用户还可以自定义函数来实现更加灵活的操作。标量函数（UDF：将一行中的一个值转换为另外一个值，比如字符串转小写；集合函数（UDAF：作用于多个值上，并且返回一个结果，比如平均值；行级别函数（UDTF。

原创 2023-05-05 21:18:39 · 542 阅读 · 0 评论
【大数据】Hive 分区和分桶的区别及示例讲解

在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中，数据被存储在HDFS中，每个分区实际上对应HDFS下的一个文件夹，这个文件夹中保存了这个分区的数据。因此，在Hive中使用分区，实际上是将数据按照某个属性值进行划分，然后将相同属性值的数据存储在同一个文件夹中。Hive分区的效率提升主要是因为，当进行查询操作时，只需读取与查询相关的数据分区，避免了全表扫描，节约了查询时间。提高查询效率。

原创 2023-05-03 19:52:58 · 428 阅读 · 0 评论
【大数据】什么是数据集成？（SeaTunnel 集成工具介绍）

数据集成是指将来自不同数据源的数据整合到一起形成一个统一的数据集。这个过程包括从不同的数据源中收集数据，对数据进行清洗、转换、重构和整合，以便能够在一个统一的数据仓库或数据湖中进行存储和管理。数据集成可以帮助企业更好地理解和利用他们的数据，并促进数据驱动的决策和业务流程优化。在数据集成过程中，需要考虑数据质量、数据安全性、数据格式、数据结构等方面的问题，并采用适当的技术和工具来解决这些问题，例如ETL抽取、转换、加载）工具、数据映射工具、数据清洗工具、数据建模工具等。SqoopDataX。

原创 2023-04-07 23:55:31 · 4017 阅读 · 2 评论
通过 docker-compose 快速部署 Hadoop 集群极简教程

前面那篇文章内容过多，可能小伙伴只是想快速部署，所以这里出了一个极简的部署教程，如果想了解详细部署过程，可以建议参考我上一篇的文章：[通过 docker-compose 快速部署 Hadoop 集群详细教程]

原创 2023-04-02 20:00:00 · 524 阅读 · 0 评论
通过 docker-compose 快速部署 Hadoop 集群详细教程

docker-compose 项目是docker官方的开源项目，负责实现对docker容器集群的快速编排，来轻松高效的管理容器，定义运行多个容器。通过docker-compose来部署应用是非常简单和快捷的。但是因为docker-compose是管理单机的，所以一般通过docker-compose部署的应用用于测试、poc环境以及学习等非生产环境场景。生产环境如果需要使用容器化部署，建议还是使用K8s。

原创 2023-04-01 22:02:22 · 1355 阅读 · 8 评论
Presto-gateway 讲解与实战操作

Presto是一个Facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。客户在使用Presto的时候发现单个集群不能满足业务需求，而建立多个Presto集群之后，如何在集群间调度任务就成为一个问题。在Presto中，一个Query执行周期内需要客户端和服务端进行多次的HTTP请求，在多集群模式下，如何保证同一个Query的请求都分发到同一个集群呢？Lyft为解决这个问题而开发了presto-gateway这个工具，并将它开源出来。

原创 2023-03-19 22:08:50 · 304 阅读 · 0 评论
【云原生】Sqoop on k8s 讲解与实战操作

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。大数据Hadoop之——数据同步工具Sqoop【云原生】Hadoop HA on k8s 环境部署。

原创 2022-11-13 22:47:04 · 1453 阅读 · 4 评论
【云原生】Minio on k8s 讲解与实战操作

MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。高性能分布式对象存储——MinIO（环境部署）高性能分布式对象存储——MinIO实战操作（MinIO扩容）

原创 2022-11-12 17:46:17 · 2133 阅读 · 0 评论
【云原生】Apache Livy on k8s 讲解与实战操作

Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RPC客户端库。Livy也简化了与Spark与应用服务的交互,这允许通过web/mobile与Spark的使用交互。其他特点还包含:Spark开源REST服务——Apache Livy（Spark 客户端）

原创 2022-11-07 23:05:03 · 2124 阅读 · 0 评论
【云原生】HBase on k8s 编排部署讲解与实战操作

HBase是一个面向列式存储的分布式数据库，其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能，基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾，是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。列式存储的分布式数据库——HBase（环境部署），【云原生】Hive on k8s 环境部署。

原创 2022-11-05 17:53:58 · 1521 阅读 · 0 评论
大数据Hadoop之——智能数据分析可视化BI软件 FineBI

FineBI 是帆软软件有限公司推出的一款商业智能（Business Intelligence）产品。FineBI 是定位于自助大数据分析的BI工具，能够帮助企业的业务人员和数据分析师，开展以问题导向的探索式分析。上面是官方的介绍，其实一般我们会将原始数据通过ETL（抽取（extract）、转换（transform）、加载（load））数据处理，当然也可以直接通过BI分析处理原数据，根据情况而定，最后会通过一款BI产品将处理好的数据或者原数据进行报表展示实时分析数据。

原创 2022-10-30 22:59:03 · 3806 阅读 · 0 评论
大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

Apache Hudi是一个快速增长的数据湖存储系统，可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语，将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统（HDFS）或云存储上，并与流行的查询引擎（如Presto（Trino）、Apache Hive、ApacheSpark和Apache Impala）集成良好。鉴于Hudi开创了一种新的模型，它不仅仅是将文件写入到一个更受管理的存储层，该存储层

原创 2022-10-30 00:29:28 · 2173 阅读 · 0 评论
大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

Hudi 是一个流式数据湖平台大数据Hadoop之——新一代流式数据湖平台 Apache Hudi大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）数据处理：计算引擎，例如：flink、spark等。数据存储：HDFS、云存储、AWS S3、对象存储等。数据管理数据查询：查询引擎，例如：Spark、Trino（Presto）、Hive、Starrocks（Doris）等。

原创 2022-10-29 01:00:42 · 3595 阅读 · 0 评论