嗷嗷的特Man-CSDN博客

原创 MR的shuffle和Spark的shuffle的区别

MR的shuffle和Spark的shuffle的区别

2022-02-12 22:30:31 2269

原创 Spark基础之：Spark SQL介绍

一.Spark SQL的概述二.Spark SQL数据抽象三.Spark SQL定义UDF函数四.Spark SQL执行流程

2022-01-15 21:01:26 2383

转载 Spark基础之：rdd的特性，DAG，Stage的理解

rdd的特性，DAG，Stage的理解RDD结构化理解RDD的数据集与PartitionsPartitionerDependencies与LineageNarrowDependency与ShuffleDependency为什么区分窄依赖和宽依赖？StageCheckpointIterator和ComputeStorageLevelPreferredLocationSparkcontextsparkconftransformationsactionsRDDRDD(Resilient Distributed

2022-01-13 18:56:57 726

原创 Spark基础之：集群角色以及任务提交流程

本篇主要介绍两块内容：一、Spark集群主要角色以及每个角色的主要功能，包含Spark自身角色以及Spark运行在Yarn（Spark on Yarn）上的角色。二、Spark运行时任务提交的流程。

2022-01-13 10:30:11 1723 1

原创 Spark基础之：常用算子逐一详解

Spark常用算子逐一详解一、什么是Spark rdd算子二、算子的分类三、常用的Transformation算子及使用方法四、常用的Action算子及使用方法五、关于rdd算子的常见问题汇总

2022-01-09 18:39:58 5326 2

原创 HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

2022-01-07 09:19:25 4358

原创 Hive cube / rollup / grouping sets/GROUPING__ID用法详解

详细介绍cube / rollup / grouping sets/GROUPING__ID这几个函数的用法以及区别

2022-01-06 18:29:07 1255

原创 hive优化、调优

hive调优方案。包含：数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜

2022-01-05 17:40:32 371

原创 Hive基础之：hive的查询注意事项以及优化总结（hive sql优化）

hive的查询注意事项以及优化总结，包括hive sql的优化，hive查询时需要注意事项。

2022-01-05 17:01:35 529

转载 Hive基础之：hive数据倾斜原因及解决方案

hive数据倾斜原因总结和及解决方案

2022-01-05 16:32:36 12257 1

原创 Hive基础之：图文详解hive分区、分桶

图文详细介绍什么是分区、分桶，他们有什么作用，以及分区、分桶的分类和实际操作中的代码样例。

2022-01-05 11:28:18 4236

原创 Hive基础之：Order By、Sort By、distribute by 、cluster by的区别

详解Order By、Sort By、distribute by 、cluster by的区别

2022-01-05 10:00:42 817

原创 MapReduce基础之：MapReduce过程中的排序

mapreduce为什么要排序是为了通过外排(外部排序)降低内存的使用量：因为reduce阶段需要分组，将key相同的放在一起进行规约，使用了两种算法：hashmap和sort，如果在reduce阶段sort排序(内部排序)，太消耗内存，而map阶段的输出是要溢写到磁盘的，在磁盘中外排可以对任意数据量分组(只要磁盘够大)，所以，map端排序(shuffle阶段)，是为了减轻reduce端排序的压力。mapreduce发成了几次排序？都在什么时候？第一次：kvbuffer溢写之前会先对内存中的文件根据

2022-01-05 09:42:01 1369

原创 MapReduce 基础之：图文讲解 MapReduce 工作原理

图文详解mapreduce

2022-01-03 18:01:24 25334 1

weixin_43542605的博客

原创大数据中台架构