2017年12月_老哂

12月 05月

原创 Hadoop的计算框架——shuffle流程理解要点

1. 分区partition每个MapTask的输出都会被分割为多个分区，Reducer会根据JobTask维护的映射关系获取自己应该处理的那一份。有多少个Reducer，Mapper的输出就应该有多少个分区。这个分区动作叫做partition，具体逻辑是由partitioner类实现（用户可以自定义自己的partitioner），partition的职责就是保证MapTask输出

2017-12-15 11:53:39 684

首次接触Hadoop是在2011年，当时主流版本是0.20.2，很多介绍hadoop的经典书籍也是基于那个经典的版本。0.20.2虽然经典，但也有很多不够完善的地方，比如namenode的性能瓶颈，jobtracker和tasktracker资源管理机制不够高效等等。在这些制约下，当年的雅虎也有单集群5000节点，秒级terasort的成绩，可见Hadoop是一个非常成功的分布式系统。Hadoop...

2017-12-11 18:28:55 3315

原创 JVM深入理解（一）

1. JVM的物理结构JVM内存结构主要包括两个子系统和两个组件。两个子系统分别是Classloader子系统和Executionengine(执行引擎)子系统；两个组件分别是Runtimedataarea(运行时数据区域/内存空间)组件和Nativeinterface(本地接口)组件。Classloader子系统的作用：根据给定的全限定名类名(如java.

2017-12-06 23:51:27 338

putty工具包(常用远程登录工具)

putty工具包(常用远程登录工具) 包含putty.exe psftp.exe PSCP.EXE PLINK.EXE等

2009-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SG的专栏

原创 Hadoop的计算框架——shuffle流程理解要点

原创 Hadoop的资源管理——Yarn初探

原创 JVM深入理解（一）

putty工具包(常用远程登录工具)

空空如也