- 博客(551)
- 资源 (17)
- 收藏
- 关注

原创 Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)
前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系目录Spark SQL 工作流程源码解析(一)总览(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(二)parsing 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(四)optimization
2022-02-24 22:35:24
3891
10

原创 如何成为 Apache Spark 的 Contributor?
前言改了 N 次,和 Apache Spark 开源社区的大佬沟通了2 个星期,我的 Pull Request 终于被接受了!!!感兴趣的小伙伴可以访问下面的链接来感受一下开源社区的魅力,大佬们真的都很热情,对我的 PR 提了很多宝贵的意见![SPARK-35907][CORE] Instead of File#mkdirs, Files#createDirectories is expected. by Shockang · Pull Request #33101 · apache/spark正
2021-07-11 12:00:08
3516
10

原创 100个问题搞懂Java并发
写在前面100个问题搞定Java虚拟机100个问题搞定大数据理论体系1000个问题搞定大数据技术体系目录结构什么叫线程安全?同步和异步有什么区别?并发和并行有什么区别?死锁、活锁和饥饿是什么意思?Java 中线程状态有哪些?Java中实现多线程的方法有哪些?JVM 中可以创建多少个线程?Java中有哪些方法可以终止线程运行?如何理解 Java 的线程中断机制?线程的等待(wait)和通知(notify)是什么情况?线程的挂起(suspend)和继续执行(resume)是什么情
2021-06-08 08:55:26
12742
22

原创 大数据技术体系(长期更新)
2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。
2021-05-25 23:15:51
24424
46

原创 大数据理论体系
目录结构大数据是什么?大数据是如何发展起来的?大数据处理的基本流程是什么?为什么说数据不动代码动?移动计算比移动数据更划算?DAG对大数据处理有什么好处?批处理和流处理如何区分? 有边界数据和无边界数据如何区分?批处理中如何提高CPU利用率?什么是事件时间和处理时间?Workflow设计模式指的什么?什么是商业智能(BI)?分布式锁是什么?如何实现?分布式事务是什么?如何实现?分布式锁和分布式事务有什么区别?CAP定理是什么?BASE理论是什么?分布式系统有哪些衡量指标?
2021-04-11 23:48:07
25039
34
原创 Spring Cloud vs Dubbo
Spring Cloud和Dubbo都是优秀的微服务框架,它们在架构模式、注册中心、服务治理、组件扩展等方面都存在差异。开发者可以根据自己的需求和场景选择不同的框架。
2023-03-19 23:58:03
55
原创 一篇文章了解微服务架构模式
微服务是一种软件架构模式,它将应用程序划分为小型、独立的服务,每个服务都可以运行在独立的进程中,并使用轻量级的通信机制进行交互。这种架构模式的目的是增强应用程序的可扩展性、可维护性和灵活性。
2023-03-19 23:46:16
33
原创 分布式对象存储——Apache Hadoop Ozone
Ozone是Apache Hadoop项目的子项目,是一个基于**对象存储**的分布式文件系统。其主要目标是提供一个高可用性、可扩展性和高性能的存储解决方案,支持大数据分析和处理应用。Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行。
2023-03-05 22:36:48
334
原创 一篇文章熟悉 Java 高性能队列——Disruptor
Java Disruptor框架是一个高性能、低延迟的并发编程框架,它主要通过使用环形缓冲区和事件发布-订阅模式来实现高效的数据传递和处理。Disruptor框架提供了简单易用的API,使得开发人员可以轻松地使用它。Disruptor框架适用于高性能、低延迟的数据处理场景,例如金融交易系统、游戏服务器、高速缓存等。
2023-03-05 22:06:23
77
原创 分布式一致性算法——Paxos 和 Raft 算法
本文主要围绕Paxos算法和Raft算法进行了讨论。我们首先介绍了分布式一致性算法的概念和必要性,然后分别从算法基本原理、角色和状态、基本流程、选举过程、优缺点等方面详细介绍了Paxos算法和Raft算法。同时,我们也对这两种算法进行了比较和区分,并讨论了如何选择合适的算法以满足不同场景下的需求和限制。为了更加清晰地描述算法的流程,我们也对Paxos算法和Raft算法的基本流程和选举过程进行了图形化展示。本文将对从事分布式系统相关工作的人员有所帮助,有助于更好地理解分布式一致性算法。
2023-02-26 20:58:00
1344
原创 StarRocks 建表指南
Star Rocks表中的数据分为key与value在上面例子中,三种模型都使用了(siteid, city, username) 作为表的排序键(key)。排序列的定义必须出现在建表语句中其他列的定义之前。排序列的顺序可以是(siteid, city),或者是(siteid, city, username),但不能是(city,username)或者是(siteid, city, pv)排序列的顺序是由CREATE TABLE中的顺序决定的。
2023-02-05 23:58:55
1124
原创 StarRocks 集群安装部署文档
本文是包括大数据集群服务器一般配置步骤、mysql5.7安装部署、starrocks HA 集群安装部署、datax+datax-web安装部署
2023-01-22 23:42:08
1640
原创 一篇文章了解 StarRocks
- StarRocks 是新一代极速全场景 MPP 数据库。- StarRocks 充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。- StarRocks 致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(明细模型、聚合模型、更新模型),多种导入方式(批量和实时),支持导入多达10000列的数据,可整合和接入多种现有系统(Spark、Flink、Hive、
2023-01-09 00:30:50
730
原创 一篇文章搞懂 Apache YARN 的 NodeManager 热重启
NM 重启是一项功能,可以重新启动 NodeManager 而不会丢失在节点上运行的容器。 当 NM 处理请求时,它将任何必要的状态同步地存储到状态存储器中。 当 NM 重新启动时,它通过加载各种子系统的状态来恢复正常工作。
2023-01-09 00:03:20
301
原创 一篇文章了解 Apache Druid
# 前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!> 本专栏目录结构和参考文献请见[大数据技术体系](https://blog.csdn.net/Shockang/article/details/117266839)---# 概述
2022-12-18 23:10:42
350
原创 一篇文章搞懂 Apache Kylin 的 Cube 优化
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!> 本专栏目录结构和参考文献请见[大数据技术体系](https://blog.csdn.net/Shockang/article/details/117266839)---# Cube 优化 Apache Kylin 的核心思想是根据用户的数据模型和查询样式对数据进行预计算,并在查询时直接利用预计算结果返回查询结果。Apache Kylin 具有响应时间快、查询时资源需
2022-12-11 23:50:19
289
原创 一篇文章学会调优 ClickHouse
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!ClickHouse 的通用优化配置如下表所示,大部分配置需要根据线上实际楼况进行优化,具体需要优化的配置可参考官方文档:https://clickhouse.tech/docs/en/operations/settings/query-complexityhttps://clickhouse.tech/docs/en/operations/settings/用户在查询数据时,可以参考如下几点对 SQ
2022-12-04 23:46:59
1000
原创 ClickHouse 的 MergeTree 引擎读写流程
MergeTree 数据写人流程单机写入流程MergeTree 只能按分区聚合数据,当每一批数据落盘时,都会生成一个新的分区目录,属于相同分区的目录会依照规则合并到一起,然后按照设置的表属性 index_granularity ,会分别生成一级素引文件 、二级素引文件、每一列宇段的.mrk 数据标记文件和 .bin 数据文件。多机 Shard 写人流程多机 Shard 写人一般有以下两种方案...
2022-11-27 23:59:33
499
原创 Apache Hive 的 SQL 执行架构
本文介绍 Apache Hive 如何将 SQL 转化为 MapReduce 任务,整个编译过程可以分为六个阶段...
2022-11-20 21:32:17
692
原创 HBase 常见问题总结(一)
问题一:业务表出现大量空Region问题二:业务 HBase 客户端 RPC 连接异常关闭问题三:单台 RegionServer 的 I/O 使用率一直为100%,HBase 集群请求量为0
2022-11-13 23:32:19
740
原创 Apache Kylin 4.0.2 集群模式安装部署指南
本文详解了 Apache Kylin 4.0.2 版本集群模式是如何安装部署的,包括构建引擎的高可用配置以及服务自主发现机制的配置。
2022-10-23 23:07:11
500
原创 Apache Kylin 3.x 的 Cube 构建流程
Cube 的构建方式通常有两种:**全量构建和增量构建**,两者的构建步骤是完全一样的,区别只在于构建时读取的数据源是全集还是子集。本文详解了Cube 的构建步骤。
2022-10-16 23:58:31
239
原创 Apache Doris 安装部署指南
Apache Doris 的安装部署文档,非常适合新手第一次安装部署 Apache Doris,不仅包括 FE、BE 的部署,也包括检查和 WEB UI 的使用,以及一个 DEMO 用例的展示。
2022-10-02 20:37:12
1690
1
原创 Apache Doris 技术调研
Apache Doris 的技术调研(包含 PPT),适合一些数据开发、架构师或者决策人员来决定是否引入 Apache Doris,包含 Apache Doris 的简单介绍、发展历程、优劣势,和主流的 OLAP 引擎的对比,以及笔者的一些个人建议。
2022-09-26 23:10:02
2706
原创 Apache Iceberg 是什么?
Apache Iceberg 是一种用于庞大分析数据集的开放表格式,Iceberg 使用类似于 SQL 表的高性能表格式为计算引擎添加了表,包括 Spark、Trino、PrestoDB、Flink、Hive 和 Impala。
2022-09-13 12:20:31
794
原创 Apache Hudi 是什么?
Apache Hudi 是下一代的实时计算数据湖平台,它在自助的数据存储层上通过增量的数据管道来构建实时计算数据湖,同时也优化了数据湖引擎和离线计算
2022-09-13 02:38:13
805
原创 Delta Lake 是什么?
Delta Lake 是一个开源项目,它可以运行在你现有的数据湖之上,可以在数据湖上构建湖仓一体架构,并且与 Apache Spark API 完全兼容。
2022-09-11 13:37:30
1751
1
原创 数据网格(Data Mesh)是什么?
就像软件设计团队从整体应用程序过渡到微服务架构一样,数据网格(Data Mesh)在很多方面来讲都是微服务的数据平台版本。正如 ThoughtWorks 的顾问和原架构师 _Zhamak Dehghani_ 首次定义的那样,数据网格(Data Mesh)是一种数据平台架构,通过利用面向领域的自助式设计,拥抱企业中无处不在的数据。借用 _Eric Evans_ 的领域驱动设计理论(DDD),这是一个灵活、可扩展的软件开发范式,将代码的结构和语言与其相应的业务领域相匹配。
2022-09-11 11:23:05
1168
原创 湖仓一体(Lakehouse)是什么?
湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。
2022-09-11 09:37:21
4016
2
原创 Serverless 是什么?BaaS 和 FaaS 是什么?
Serverless 是一个云原生开发模型,允许开发人员构建和运行应用程序,而无需管理服务器。
2022-09-04 23:48:33
490
原创 Apache Ranger 的架构是怎样的?
首先,让我们列出Ranger中的所有组件:- Ranger 管理服务器/门户(Ranger Admin Server/Portal)- Ranger 策略服务器(Ranger Policy Server)- Ranger 插件(Ranger Plugins)- Ranger 用户/组同步(RaRanger管理服务器/门户Ranger策略服务器游侠插件Ranger用户/组同步游侠标签同步Ranger审计服务器以下是一个不错的架构图,显示了每个组件之间的关系:......
2022-08-29 00:00:00
832
原创 Apache Atlas 是什么?
Apache Atlas 是一个开源的元数据管理和数据治理工具,使数据团队能够从多个数据源摄取、发现、编目、分类和管理数据资产
2022-08-28 23:54:43
866
原创 哪些原因可能会导致 HBase 的 RegionServer 宕机?
HBase 系统中主要有两类服务进程: Master 进程以及 RegionServer 进程。Master 主要负责集群管理调度,在实际生产线上并没有非常大的压力,因此发生软件层面故障的概率非常低。 RegionServer 主要负责用户的读写服务,进程中包含很多缓存组件以及与 HDFS 交互的组件,实际生产线上往往会有非常大的压力,进而造成的软件层面故障会比较多。
2022-08-21 23:32:43
544
原创 Paxos 算法详解
在 Paxos 算法里,我们把每一个要写入的操作,称之为**提案(Proposal)**。接受外部请求,要尝试写入数据的服务器节点,称之为**提案者(Proposer)**,比如说,我们可以让一组服务器里面有 5 个提案者,可以接受外部的客户端请求。在 Paxos 算法里,并不是提案者一旦接受到客户端的请求,就决定了接下来的操作和结果的,而是有一个异步协调的过程,在这个协调过程中,只有获得多数通过的请求才会被选择。
2022-08-21 22:50:11
1144
原创 一个或多个主机没有报告其操作系统分配。这可能是由于运行已过期的 Cloudera Manager Agent 版本造成的。
一个或多个主机没有报告其操作系统分配。这可能是由于运行已过期的 Cloudera Manager Agent 版本造成的。请运行 Host Inspector 检查 Agent 版本。
2022-08-14 22:33:29
824
原创 CentOS 7 安装 MySQL 5.7
在 CentOS 7 中默认安装有 MariaDB ,这个是 MySQL 的分支,但为了需要,还是要在系统中安装 MySQL ,而且安装完成之后可以直接覆盖掉 MariaDB。
2022-08-14 20:34:31
2523
cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz
2022-08-01
elasticsearch-head-compile-after.tar.gz
2021-08-22
mysql-community-server-8.0.24-1.el8.x86_64.rpm
2021-06-20
mysql-community-client-8.0.24-1.el8.x86_64.rpm
2021-06-20
mysql-community-common-8.0.24-1.el8.x86_64.rpm
2021-06-20
mysql-community-libs-8.0.24-1.el8.x86_64.rpm
2021-06-20
mysql-community-client-plugins-8.0.24-1.el8.x86_64.rpm
2021-06-20
Hive3.1.2安装包
2021-06-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人