一、如何安装配置apache的一个开源hadoop集群
-
使用root账户登录
-
修改IP
-
修改host主机名
-
配置SSH免密码登录
-
关闭防火墙
-
安装JDK并配置jdk环境变量
-
解压hadoop安装包
-
配置hadoop的核心文件
hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml ,yarn-site.xml ,slaves -
配置hadoop环境变量
-
格式化 hadoop namenode-format
二、HDFS存储机制
HDFS(Hadoop Distributed File System)是GFS的开源实现。
特点如下:
- 能够运行在廉价机器上,硬件出错常态,需要具备高容错性
- 流式数据访问,而不是随机读写
- 面向大规模数据集,能够进行批处理、能够横向扩展
- 简单一致性模型,假定文件是一次写入、多次读取<