自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 大数据中台架构

大数据中台架构

2022-02-13 19:32:52 1949

原创 MR的shuffle和Spark的shuffle的区别

MR的shuffle和Spark的shuffle的区别

2022-02-12 22:30:31 2013

原创 Spark基础之:Spark SQL介绍

一.Spark SQL的概述二.Spark SQL数据抽象三.Spark SQL定义UDF函数四.Spark SQL执行流程

2022-01-15 21:01:26 2132

转载 Spark基础之:rdd的特性,DAG,Stage的理解

rdd的特性,DAG,Stage的理解RDD结构化理解RDD的数据集与PartitionsPartitionerDependencies与LineageNarrowDependency与ShuffleDependency为什么区分窄依赖和宽依赖?StageCheckpointIterator和ComputeStorageLevelPreferredLocationSparkcontextsparkconftransformationsactionsRDDRDD(Resilient Distributed

2022-01-13 18:56:57 698

原创 Spark基础之:集群角色以及任务提交流程

本篇主要介绍两块内容:一、Spark集群主要角色以及每个角色的主要功能,包含Spark自身角色以及Spark运行在Yarn(Spark on Yarn)上的角色。二、Spark运行时任务提交的流程。

2022-01-13 10:30:11 1691 1

原创 Spark基础之:常用算子逐一详解

Spark常用算子逐一详解一、什么是Spark rdd算子二、算子的分类三、常用的Transformation算子及使用方法四、常用的Action算子及使用方法五、关于rdd算子的常见问题汇总

2022-01-09 18:39:58 4516 2

原创 HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

2022-01-07 09:19:25 4016

原创 Hive cube / rollup / grouping sets/GROUPING__ID用法详解

详细介绍cube / rollup / grouping sets/GROUPING__ID这几个函数的用法以及区别

2022-01-06 18:29:07 1181

原创 hive优化、调优

hive调优方案。包含:数据的压缩与存储,sql的优化,hive参数的优化,解决数据的倾斜

2022-01-05 17:40:32 358

原创 Hive基础之:hive的查询注意事项以及优化总结(hive sql优化)

hive的查询注意事项以及优化总结,包括hive sql的优化,hive查询时需要注意事项。

2022-01-05 17:01:35 460

转载 Hive基础之:hive数据倾斜原因及解决方案

hive数据倾斜原因总结和及解决方案

2022-01-05 16:32:36 12163 1

原创 Hive基础之:图文详解hive分区、分桶

图文详细介绍什么是分区、分桶,他们有什么作用,以及分区、分桶的分类和实际操作中的代码样例。

2022-01-05 11:28:18 4138

原创 Hive基础之:Order By、Sort By、distribute by 、cluster by的区别

详解Order By、Sort By、distribute by 、cluster by的区别

2022-01-05 10:00:42 790

原创 MapReduce基础之:MapReduce过程中的排序

mapreduce为什么要排序是为了通过外排(外部排序)降低内存的使用量:因为reduce阶段需要分组,将key相同的放在一起进行规约,使用了两种算法:hashmap和sort,如果在reduce阶段sort排序(内部排序),太消耗内存,而map阶段的输出是要溢写到磁盘的,在磁盘中外排可以对任意数据量分组(只要磁盘够大),所以,map端排序(shuffle阶段),是为了减轻reduce端排序的压力。mapreduce发成了几次排序?都在什么时候? 第一次:kvbuffer溢写之前会先对内存中的文件根据

2022-01-05 09:42:01 1327

原创 MapReduce 基础之:图文讲解 MapReduce 工作原理

图文详解mapreduce

2022-01-03 18:01:24 24784 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除