自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Shockang的博客

多读书

  • 博客(11)
  • 资源 (17)
  • 收藏
  • 关注

原创 Spark 3.2.0 版本新特性 push-based shuffle 论文详解(二)背景和动机

Spark 3.2.0 版本新特性 push-based shuffle 论文详解(二)背景和动机前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系目录Spark 3.2.0 版本新特性 push-based shuffle 论文详解(一)概要和介绍Spark 3.2.0 版本新特性 push-based shuffle 论文详解(二)背景和动机Spark 3.2.0 版本新特性 p

2022-02-27 23:14:41 2678

原创 Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)

前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系目录Spark SQL 工作流程源码解析(一)总览(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(二)parsing 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(四)optimization

2022-02-24 22:35:24 5882 12

原创 一篇文章了解 Spark 3.x 的 Catalog 体系

前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系关于数据库的一些基本概念Schema(模式)数据库 Schema 有两种含义。一种是概念上的 Schema,指的是一组 DDL 语句集,该语句集完整地描述了数据库的结构。还有一种是物理上的 Schema,指的是数据库中的一个名字空间,它包含一组表、视图和存储过程等命名对象。物理 Schema 可以通过标准SQL语句来创建、更新和修改。

2022-02-21 22:35:11 5490

翻译 Spark 3.x 版本的 Table Catalog API 是怎样的?

原文本文翻译自《SPIP: Spark API for Table Metadata》背景和动机DataSource v2 是用来读取和写入数据的新型 API ,旨在支持更多外部数据存储,并且可以更灵活地集成这些存储。关于 DataSource v2 请参考我的博客——Spark DataSource API v2 版本有哪些改进?v1 版本和 v2 版本有什么区别?但是,v2 API目前缺少该集成的关键部分:在外部存储中创建,更改和删除表的方法。SQL 和 DataFrames 都支持 C

2022-02-21 21:35:16 1603

原创 Spark 3.2.0 版本新特性 push-based shuffle 论文详解(一)概要和介绍

前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系目录Spark 3.2.0 版本新特性 push-based shuffle 论文详解(一)概要和介绍Spark 3.2.0 版本新特性 push-based shuffle 论文详解(二)背景和动机Spark 3.2.0 版本新特性 push-based shuffle 论文详解(三)系统设计Spark 3.2.0 版本新特性 pus

2022-02-19 23:21:57 1964 4

原创 一篇文章了解 Presto

前言本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据技术体系Presto 是什么?Presto 是一个开源的分布式 SQL 查询引擎,用于 GB 到 PB 级别的各种大小的数据源进行交互式的分析查询。Presto 从诞生开始就是为了交互式分析,提供了接近商业数据仓库的速度。它既可支持非关系数据源,例如 Hadoop 分布式文件系统 (HDFS)、Amazon S3、Cassandra、MongoD

2022-02-19 23:16:47 1106

翻译 Spark 3.2.0 版本新特性 push-based shuffle 的背景和动机

原文本文翻译自 Spark 3.2.0 版本新增特性 push-based shuffle的 SPIP。SPIP: Support push-based shuffle to improve shuffle efficiency背景和动机在 Spark 计算基础设施的大规模部署中,Spark Shuffle 正在成为潜在的扩展瓶颈和集群效率低下的原因。在 YARN 上进行大规模部署时,人们通常启用 Spark 外部 Shuffle 服务,并将中间 Shuffle 文件存储在硬盘上。由于与 Shu

2022-02-19 13:40:14 572

翻译 Spark DataSource API v2 版本有哪些改进?v1 版本和 v2 版本有什么区别?

# SPIP本文翻译自 [SPIP: Data source API v2](https://issues.apache.org/jira/browse/SPARK-15689)

2022-02-16 22:45:43 1798

原创 LeetCode 131~135

前言本文隶属于专栏《LeetCode 刷题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构请见LeetCode 刷题汇总Github 配套工程algorithm正文幕布幕布链接126. 单词接龙 II题解My concise JAVA solution based on BFS and DFSBFS+DFSpackage com.shockang.study.algorithm.java.leetcode.leetcode101_

2022-02-13 23:58:48 772

原创 LeetCode 126~130

前言本文隶属于专栏《LeetCode 刷题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构请见LeetCode 刷题汇总Github 配套工程algorithm正文幕布幕布链接126. 单词接龙 II题解My concise JAVA solution based on BFS and DFSBFS+DFSpackage com.shockang.study.algorithm.java.leetcode.leetcode101_

2022-02-13 23:58:04 708

原创 Spark SQL 工作流程源码解析(二)parsing 阶段(基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL 工作流程源码解析(一)总览(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(二)parsing 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)Spark SQL 工作流程源

2022-02-04 15:22:11 4821 18

CDH 5.14.2 安装包第一部分

CDH5.14.2 安装包第一部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH5.14.2 安装包第二部分

CDH5.14.2 安装包第二部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH 5.14.2 安装包第三部分

CDH 5.14.2 安装包第三部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

Apache Kylin 4.0.2 安装包

Apache Kylin 4.0.2 安装包

2022-10-17

Apache Doris 1.1.2 FE 安装包

Apache Doris 1.1.2 FE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 1.1.2 BE 安装包

Apache Doris 1.1.2 BE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 技术调研

Apache Doris 技术调研,建议配合我的同名博客来一同研究学习。

2022-09-26

mysql-5.7.36-el7-x86_64.tar.gz

mysql 5.7.36 linux 安装包

2022-08-08

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz 建议配合我的博客一起使用——《Cloudera 平台搭建》

2022-08-01

大数据从0到1 .pptx

大数据入门知识,面向纯大数据新手。主要关于为什么学习大数据、什么是大数据、大数据有哪些职业方向、大数据是如何发展起来的以及大数据该如何学习。

2021-11-01

Spark 线性回归测试数据集 lpsa.data

参考个人博客《Spark RDD 论文详解(三)Spark 编程接口》了解详情

2021-12-26

elasticsearch-head-compile-after.tar.gz

编译后的 elasticsearch-head 源码包,建议配合安装教程《如何安装 elasticsearch-head 插件?》一同使用

2021-08-22

Hive3.1.2安装包

建议配合我的博客一同使用——[Hive 3.x 安装部署教程](https://blog.csdn.net/Shockang/article/details/118062872)

2021-06-19

flink-1.8.1_after_compile.tar.gz

Flink 1.8.1 编译后的源码包

2021-08-22

spark-2.3.3.zip

Spark 2.3.3 安装包,配合本人博客《Spark 2.3 安装部署》一同使用

2021-10-16

logstash-7.14.1-darwin-x86_64.tar

logstash Mac

2021-09-12

kibana-7.14.1-darwin-x86_64.tar

kibana

2021-09-12

elasticsearch-7.14.1-darwin-x86_64.tar

elasticsearch Mac

2021-09-12

elasticsearch-analysis-ik-6.7.0.zip

elasticsearch 中文分词

2021-08-22

mysql-community-client-plugins-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-libs-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-common-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-client-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-server-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除