chengyuan54-CSDN博客

原创编译Spark3.x，Spark3.x与Hadoop、Hive版本兼容问题的解决

编译Spark3.x1.修改 D:\source\spark-3.0.0\dev\make-distribution.sh将133行-151行注释，按如下方式修改VERSION=3.0.0SCALA_VERSION=2.12SPARK_HADOOP_VERSION=2.6.0-cdh5.16.2SPARK_HIVE=1#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null\# .

2020-09-25 22:46:12 6858

原创使用Azkaban过程中遇到的非常见问题以及解决办法

使用azkaban3.9遇到的问题启动azkaban并且安装插件遇到的问题启动azkaban报错1：Could not find variable substitution for variable(s) [jobtype.classpath->hadoop.classpath]错误信息：1) Error injecting constructor, azkaban.jobtype.JobTypeManagerException: azkaban.jobtype.JobTypeM

2020-09-07 11:36:58 10299 1

原创 Hive优化

Hive优化Hive优化思想:Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具，所以学习MapReduce的原理对我们使用hive，优化hive有很大的帮助。使用Hive尽量按照分布式计算的一些特点来设计sql，可以提升效率。Hive性能优化时，把HiveQL当做M/R程序来读，即从M/R的运行角度来考虑优化性能，从更底层思考如何优化运算...

2018-12-06 19:20:52 446

翻译 mapreduce的shuffle过程（详解）

Mapreduce的shuffle过程详解mapreduce框架内部核心工作机制详解示意图maptask之前，输入切片的划分如图，以一个wordcount的job为例,在文件输入目录下有a.txt,b.txt,c.txt 三个文件(/wordcount/input/a.txt,b.txt,c.txt),a.txt为200M，b.txt为180M，c.txt为100M。然后...

2018-11-19 22:37:38 318