- 博客(15)
- 收藏
- 关注
原创 Spark基础之:Spark SQL介绍
一.Spark SQL的概述二.Spark SQL数据抽象三.Spark SQL定义UDF函数四.Spark SQL执行流程
2022-01-15 21:01:26 2383
转载 Spark基础之:rdd的特性,DAG,Stage的理解
rdd的特性,DAG,Stage的理解RDD结构化理解RDD的数据集与PartitionsPartitionerDependencies与LineageNarrowDependency与ShuffleDependency为什么区分窄依赖和宽依赖?StageCheckpointIterator和ComputeStorageLevelPreferredLocationSparkcontextsparkconftransformationsactionsRDDRDD(Resilient Distributed
2022-01-13 18:56:57 726
原创 Spark基础之:集群角色以及任务提交流程
本篇主要介绍两块内容:一、Spark集群主要角色以及每个角色的主要功能,包含Spark自身角色以及Spark运行在Yarn(Spark on Yarn)上的角色。二、Spark运行时任务提交的流程。
2022-01-13 10:30:11 1723 1
原创 Spark基础之:常用算子逐一详解
Spark常用算子逐一详解一、什么是Spark rdd算子二、算子的分类三、常用的Transformation算子及使用方法四、常用的Action算子及使用方法五、关于rdd算子的常见问题汇总
2022-01-09 18:39:58 5326 2
原创 HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
2022-01-07 09:19:25 4358
原创 Hive cube / rollup / grouping sets/GROUPING__ID用法详解
详细介绍cube / rollup / grouping sets/GROUPING__ID这几个函数的用法以及区别
2022-01-06 18:29:07 1255
原创 Hive基础之:hive的查询注意事项以及优化总结(hive sql优化)
hive的查询注意事项以及优化总结,包括hive sql的优化,hive查询时需要注意事项。
2022-01-05 17:01:35 529
原创 Hive基础之:Order By、Sort By、distribute by 、cluster by的区别
详解Order By、Sort By、distribute by 、cluster by的区别
2022-01-05 10:00:42 817
原创 MapReduce基础之:MapReduce过程中的排序
mapreduce为什么要排序是为了通过外排(外部排序)降低内存的使用量:因为reduce阶段需要分组,将key相同的放在一起进行规约,使用了两种算法:hashmap和sort,如果在reduce阶段sort排序(内部排序),太消耗内存,而map阶段的输出是要溢写到磁盘的,在磁盘中外排可以对任意数据量分组(只要磁盘够大),所以,map端排序(shuffle阶段),是为了减轻reduce端排序的压力。mapreduce发成了几次排序?都在什么时候? 第一次:kvbuffer溢写之前会先对内存中的文件根据
2022-01-05 09:42:01 1369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人