查看Hadoop的源码包,主要分为以下几个模块:
- core
package 作用 sub-package org.apache.hadoop.conf 读取及解析配置文件 org.apache.hadoop.fs 支持各种文件系统数据操作以及处理文件系统权限 org.apache.hadoop.fs.ftp,
org.apache.hadoop.fs.kfs,
org.apache.hadoop.fs.permission,
org.apache.hadoop.fs.s3,
org.apache.hadoop.fs.s3native,
org.apache.hadoop.fs.shellorg.apache.hadoop.http 启动Jetty服务器用来接收http请求 org.apache.hadoop.http.lib org.apache.hadoop.io 负责对象的序列化,输入输出,压缩格式等等 org.apache.hadoop.io.compress,
org.apache.hadoop.io.compress.bzip2,
org.apache.hadoop.io.zlib,
org.apache.hadoop.io.file.tfile,
org.apache.hadoop.io.nativeio,
org.apache.hadoop.io.retry,
org.apache.hadoop.io.serializerorg.apache.hadoop.ipc 实现hadoop集群的rpc接口,提供rpc的服务器端、客户端类 org.apache.hadoop.ipc.metrics org.apache.hadoop.log 日志统计相关类 org.apache.hadoop.log.metrics org.apache.hadoop.metrics
org.apache.hadoop.metrics2统计指标相关类,用来支持集群的性能监控 org.apache.hadoop.metrics.file,
org.apache.hadoop.metrics.ganglia,
org.apache.hadoop.metrics.jvm,
org.apache.hadoop.metrics.spi,
org.apache.hadoop.metrics.util,
org.apache.hadoop.metrics2.filter,
org.apache.hadoop.metrics2.impl,
org.apache.hadoop.metrics2.lib,
org.apache.hadoop.metrics2.sink,
org.apache.hadoop.metrics2.sink.ganglia,
org.apache.hadoop.metrics2.source,
org.apache.hadoop.metrics2.utilorg.apache.hadoop.net 提供网络服务的支持 org.apache.hadoop.record 处理对输入输出的数据记录的支持 org.apache.hadoop.record.compiler,
org.apache.hadoop.record.compiler.ant,
org.apache.hadoop.record.compiler.generated,
org.apache.hadoop.record.metaorg.apache.hadoop.security 处理hadoop集群的安全认证支持 org.apache.hadoop.security.authentication.client,
org.apache.hadoop.security.authentication.server,
org.apache.hadoop.security.authentication.util,
org.apache.hadoop.security.authorize,
org.apache.hadoop.security.token,
org.apache.hadoop.security.token.delegationorg.apache.hadoop.util 工具包 org.apache.hadoop.util.bloom,
org.apache.hadoop.util.hash
- hdfs
package 作用 sub-package org.apache.hadoop.hdfs 提供分布式文件系统基本类,如文件系统、客户端等 org.apache.hadoop.hdfs.protocol hdfs基础对象,如数据块、客户端传输协议、分布式文件信息等 org.apache.hadoop.hdfs.security token的管理与使用,包括代理token和块token org.apache.hadoop.hdfs.security.token.block,
org.apache.hadoop.hdfs.security.token.delegationorg.apache.hadoop.hdfs.server 服务器运转,包括namenode与datanode org.apache.hadoop.hdfs.server.balancer,
org.apache.hadoop.hdfs.server.common,
org.apache.hadoop.hdfs.server.datanode,
org.apache.hadoop.hdfs.server.datanode.metrics,
org.apache.hadoop.hdfs.server.datanode.web.resources,
org.apache.hadoop.hdfs.server.namenode,
org.apache.hadoop.hdfs.server.namenode.metrics,
org.apache.hadoop.hdfs.server.namenode.web.resources,
org.apache.hadoop.hdfs.server.protocolorg.apache.hadoop.hdfs.tools 辅助工具 org.apache.hadoop.hdfs.util 工具类 org.apache.hadoop.hdfs.web 提供web访问支持
- mapred
package 作用 sub-package org.apache.hadoop.filecache 分布式cache org.apache.hadoop.mapred 进行job的分布式计算(兼容0.20.2以前版本) org.apache.hadoop.mapred.jobcontrol 用来控制job执行的顺序(兼容0.20.2以前版本) org.apache.hadoop.mapred.join 辅助进行join操作(兼容0.20.2以前版本) org.apache.hadoop.mapred.lib 提供lib供编写mr计算使用,如outputformat,inputformat,mapper,reducer等(兼容0.20.2以前版本) org.apache.hadoop.mapred.lib.aggregate,
org.apache.hadoop.mapred.lib.dborg.apache.hadoop.mapred.pipes 使用pipe方式进行计算(兼容0.20.2以前版本) org.apache.hadoop.mapred.tools 提供管理工具MRAdmin来管理任务(兼容0.20.2以前版本) org.apache.hadoop.mapreduce 进行job分布式计算(0.20.2及以后版本) org.apache.hadoop.mapreduce.lib 提供常用lib供编写mr计算使用 org.apache.hadoop.mapreduce.lib.input,
org.apache.hadoop.mapreduce.lib.map,
org.apache.hadoop.mapreduce.lib.output,
org.apache.hadoop.mapreduce.lib.partition,
org.apache.hadoop.mapreduce.lib.reduceorg.apache.hadoop.mapreduce.security 处理job使用的token org.apache.hadoop.mapreduce.security.token,
org.apache.hadoop.mapreduce.security.token.delegatioorg.apache.hadoop.mapreduce.server 提供jobtracker与tasktracker的服务 org.apache.hadoop.mapreduce.server.jobtracker,
org.apache.hadoop.mapreduce.server.tasktracker,
org.apache.hadoop.mapreduce.server.tasktracker.userlogsorg.apache.hadoop.mapreduce.split 进行任务分片