2018年04月_mumumuyanyanyan

12月 05月 04月

原创 MapReduce在yarn中的执行过程

在MapReduce工作原理简介中我简单的了解了MapReduce的工作原理，在这篇文章中，我们将要了解MapReduce的执行过程。我们知道从Hadoop2.X，采用的是yarn作为资源管理系统，我们将要了解MapReduce在yarn中的执行过程。同样，对于yarn，网上有很多大神的写的博客，这里我主要是结合自己的理解，对知识进行积累。1.概念名词简介 yarn是资源管理系统，采...

2018-04-30 22:28:29 753

原创 MapReduce工作原理简介

由于工作后的第一个任务就是使用Hadoop进行大量的数据处理，其中使用的MapReduce计算框架，这里就简单做了一些总结，网上也有很多大神的总结，这里就当作自己的一个小小积累了。1.概述 MapReduce采用的是“分而治之”的数据，当我们处理大规模的数据时，将这些数据拆解成多个部分，并利用集群的多个节点同时进行数据处理，然后将各个节点得到的中间结果进行汇总，经过进一步的计算（该计...

2018-04-30 16:49:20 4870

原创 Jupyter notebook运行Spark+Scala

今天在intellij调试spark的时候感觉每次有新的一段代码，都要重新跑一遍，如果用spark-shell，感觉也不是特别方便，如果能像python那样，使用jupyter notebook进行编程就很方便了，同时也适合代码展示，网上查了一下，试了一下，碰到了很多坑，有些是旧的版本，还有些是版本不同导致错误，这里就记录下来安装的过程。1.运行环境硬件：Mac事先装好：Jupyter n...

2018-04-29 23:42:20 8881 5