hadoop读入多个文件_Hadoop实操

本文对安装Hadoop进行学习。

Network Topology

Hadoop cluster architecture通常包含two-level network topology,如下所示。每个rack通常包含30-40个机器,使用10GB的switch进行交互,rack之间使用core switch或router进行交互。

a0ac5b38bd686661bf21bb705039f844.png

Hadoop为了获得最大的性能,需要配置使其知道cluster的网络拓扑。当存在多个rack时,需要映射rack和node,这样,Hadoop在分配task和data replica到node时就能考虑性能和可靠性。Java interface DNSToSwitchMapping用来指定node和network location的映射,其默认实现ScriptBasedMapping使用user-defined的脚本来获取mapping,脚本地址使用属性net.topology.script.file.name来指定。当不存在脚本文件时,将所有node映射到/default-rack。

Cluster setup and Installation

Hadoop可以运行在unix和windows OS,但都需要安装Java。

最好创建unix user hdfs, mapred, yarn来分别处理HDFS,MapReduce和YARN,这些user都属于hadoop group。

下载hadoop后,执行下面操作来安装hadoop.

$cd /usr/local
$sudo tar xzf hadoop-x.y.z.tar.gz
$sudo chown -R hadoop:hadoop hadoop-x.y.z

$ export HADOOP_HOME=/usr/local/hadoop-x.y.z
$ export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Hadoop需要做集群级别的操作,因此需要ssh到集群中的所有node。hdfs和yarn用户需要设置SSH来实现无需输入密码的登录集群中的机器。最简单的方法是生成公钥/私钥对,将其放在集群都能访问的NFS位置,将公钥存放在所有机器的~/.ssh/authorized_keys文件。然后使用ssh-agent和ssh-add来实现不用输入密码。

# 使用rsa算法来生成公私钥,私钥存放在~/.ssh/id_rsa,公钥存放在~/.ssh/id_rsa.pub
$ ssh-keygen -t rsa -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Hadoop中提供脚本来启动和停止darmons,这些脚本存放在sbin目录中。slaves文件记录cluster中的所有machine,slaves文件的位置使用hadoop-env.sh中的HADOOP_SLAVES来指定。

HDFS daemons通过执行下面脚本来启动。该脚本通过命令hdfs getconf -namenodes来发现namenode的主机名,在这些主机上启动namenode并在slaves文件指定的所有主机上启动datanode,在所有secondarynamenodes主机上启动secondary namenode。

$ start-dfs.sh

YARN daemons通过下面脚本启动。该脚本在运行脚本的local machine上启动resource manager并在slaves文件中的所有机器上启动node manager。

$ start-yarn.sh

MapReduce daemon - job history server通过下面的脚本启动,用户为mapred。

$ mr-jobhistory-daemon.sh start historyserver

Hadoop cluster运行起来后,需要创建user dir来给用户赋予权限。

$ hadoop fs -mkdir /user/username
$ hadoop fs -chown username:username /user/username
# 限制用户在该user dir中最多使用1TB的空间
$ hdfs dfsadmin -setSpaceQuota 1t /user/username  

Hadoop Configuration

Hadoop使用很多配置文件来进行配置,下面是一些比较重要的配置文件。这些文件存放在HADOOP_CONF_DIR指定路径的子路径etc/hadoop中。

3d08ed98c6c33c5ab6ff0a2c7eef04d6.png

Hadoop并不具有single global的位置来存放配置信息。集群中的每个node都存在自己的配置文件集,需要管理员确保这些配置文件是一致的。

hadoop-env.sh中的JAVA_HOME用来确定Java的位置,若没有设置,使用系统变量JAVA_HOME. 默认,Hadoop为每个daemon分配1000MB的内存空间,可用HADOOP_HEAPSIZE来设置。HADOOP_LOG_DIR用来指定存放system logfiles的位置,默认为$HADOOP_HOME/logs,推荐设置在global的位置来存放日志文件。

查看运行daemon的真实configuration,可通过访问web server的/conf来查看,如:http://resource-manager-host:8088/conf来查看resource manager的配置。

-HDFS

为了运行HDFS,至少需要一个机器来作为namenode,使用core-site.xml中的fs.defaultFS来指定使用的默认filesystem,若是hdfs会指定namenode的hostname或ip,其端口号为listen on的端口号,默认为8020。

<?xml version="1.0"?>

下面是hdfs-site.xml的简单示例。

<?xml version="1.0"?>

dfs.namenode.name.dir指定namenode存放filesystem metadata的目录位置,会在指定的多个目录中存放相同的数据来实现冗余数据备份;dfs.namenode.data.dir指定datanode存放block的目录,需要为每个local disk指定目录,数据只会存放在其中一个(round-robins)。dfs.namenode.checkpoint.dir指定secondary namenode存放checkpoint的位置,冗余存放。

-YARN

YARN中必须指定一个machine为resource manager,使用yarn.resourcemanager.hostname来指定该machine的hostname或IP。MapReduce Job会将中间数据和working files存放在临时的local files中,这些数据作为map tasks的输出可能会很大,使用yarn.nodemanager.local-dirs来指定位置,这些位置被round-robin使用。

yarn.nodemanager.resource.memory-mb指定可分配给containers的物理内存大小;yarn.nodemanager.vmem-pmem-ratio可分配给container的虚拟内存和物理内存的比例;yarn.nodemanager.resource.cpu-vcores指定可分配给container的cpu核数。

Hadoop daemons通常运行RPC server来在daemons之间进行通信,并运行HTTP server为用户提供web pages。

Hadoop自身并不管理user credential,它依赖于Kerberos来对user进行认证。但Kerberos并不管理权限。Hadoop来管理user的具有的权限。通过设置core-site.xml中的hadoop.security.authentication为kerberos来使用kerberos作为认证手段,并设置hadoop.security.authorization为true来启动service级别的权限控制。

Kerberos的认证过程可以简化为下图。

3a2e4a1d64e54913f630bc1fff769227.png

分布式系统中存在很多client-server交互,若每次都用kerberos认证,效率会很低。Hadoop使用delegation tokens来允许后续的认证访问。解释:第一次使用RPC call来访问namenode时,client没有delegation token,使用kerberos进行认证,namenode在response中返回delegation token。后续访问,client执行携带token即可。

Hadoop管理

-HDFS

作为Hadoop管理员,很有必要知道HDFS怎么在disk上存储数据。

下面是namenode的目录。其中,VERSION用来存放HDFS的版本信息;in_use.lock为lock文件,用来lock storage dir以阻止其他namenode instance来操作相同的storage dir。

4d9a803904313fe75d7209478e1ee5a5.png

当filesystem client执行write操作时,transaction先记录在edit log中,之后记录到namenode的in-memory filesystem metadata中。In memory metadata被read request使用。每个edit log以edits开头,拼接transaction的id范围,表示其记录的transaction范围。任何时候只有一个edit log被使用,edits_inprogress_*。当namenode存在多个目录记录filesystem metadata时,记录必须sync到所有目录之后才返回success。

fsimage文件是filesystem metadata的complete persistent checkpoint。恢复namenode时,只需要加载最新的fsimage,然后执行edit log中记录的之后的所有transaction即可。

由于namenode重启时会将最新的fsimage加载进内存,并依次执行edit log中的transation来获得最新的状态。在此期间,namenode不可以使用。为了缩减重启的时间,增加secondary namenode,用来将edit log中的transaction在最新的fsimage上生成更新的fsimage。过程展示如下。

f707ae8139cd263145fe0a51e4ed1630.png

下面是datanode directory structure。HDFS blocks存放在文件blk_*中,每个block有一个关联的metadata文件*.meta。每个block属于block pool,每个block pool都有自己的storage dir。当每个dir中的block增长到dfs.datanode.numblocks(默认64)指定的数量便创建新的dir来存放。

39f24430ef66afb98965aabf6362ab24.png

当namenode启动时,加载fsimage到内存并apply edit log中的每个edit来创建新的fsimage,这个过程中,client只能读,为safe mode。

HDFS可以log所有的filesystem access requests,默认情况下被disabled。可以通过在hadoop-env.sh中如下设置来开启。Audit log被记录在hdfs-audit.log中。

export HDFS_AUDIT_LOGGER="INFO,RFAAUDIT"

HDFS中提供一些工具。dfsadmin用来获取HDFS的状态并执行admin操作。fsck用来检查HDFS上文件的health。

# fsck寻找组成文件的block
$ hdfs fsck /user/tom/part-00007 -files -blocks -racks

balancer为Hadoop daemon,在遵循block replica placement policy的情况下重新部署block,使得block在datanode上均匀存放。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值