hadoop
文章平均质量分 75
i000zheng
这家伙很勤快!!
展开
-
Ubuntu16.04下搭建Hadoop2.7.4运行示例工程
1.配置环境Ubuntu 16.04JDK8 (参见ubuntu16.04 配置JDK1.7 配置7和8基本一样)2.创建Hadoop用户和组sudo addgroup hadoop #创建Hadoop用户组sudo adduser -ingroup hadoop hadoop#在组下创建用户Hadoop 回车后会提示输入密码,这是新建原创 2017-09-12 20:05:27 · 533 阅读 · 0 评论 -
ZooKeeper的原理和应用
一直对zookeeper的应用和原理比较迷糊,今天看一篇文章,讲得很通透,分享如下:场景一有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。 通过...转载 2018-02-26 20:26:01 · 242 阅读 · 0 评论 -
MapReduce的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱的。后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成...转载 2018-02-26 20:16:58 · 218 阅读 · 0 评论 -
Spark 的基本原理和架构
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-02-27 09:33:21 · 455 阅读 · 0 评论 -
Spark和MapReduce的Shuffle比较。
熟悉 Hadoop MapReduce 中的 shuffle 过程,学习Spark的时候可能会按照 MapReduce 的思路去想象 Spark 的 shuffle 过程。然而,它们之间有一些区别和联系。 1.从整体功能上看,两者并没有大的差别。 都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同...原创 2018-03-26 20:43:21 · 1457 阅读 · 0 评论