1、基础知识
涞源时Google三篇论文:
1: 小文件存储占用大量的内存
2: 2.x以后支持文件修改append功能,但是生产不开放这个功能,因为修改过程文件大小修改,切分重新定义,CPU 内存 IO 都会处理这个过程,性能浪费
3: 原数据信息存放在NameNode中,生产环境有且只有一个NameNode处于工作状态中
4: 1.x存在secondary namenode的概念 只能部分备份namenode数据,2.x 做HA就不需要了
5: namenode 和datanode保持心跳(图中虚线),便于知道存活状态和负载状态
6: 1.x默认block=64M,配置文件可配置,block是一个逻辑概念,65M不会占用两个64M,而是两个block 一个64M, 另一个是1M
7: 第一台服务器down掉,高容错性会再一次复制副本数到另一台机器,这样当第一台服务器up时候,会多出副本,也就是说 副本数>=配置副本数,不会在删除多余的副本
8: 客户端会并发的写入block副本中
9:顺序就近读取block文件,不会并发,保持有序
2、安装
下载:
- sudo wget https://archive.apache.org/dist/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz
官网文档:
- https://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html
版本:
- hadoop 2.5.2
- jdk1.8
https://blog.csdn.net/lu1171901273/article/details/86518494
mac hadoop 目录:
/Users/xielianjun/003-software/尚学堂/hadoop/hadoop-2.5.1
3、时间同步
分布式部署一定要事先执行时间同步
NTP 时间服务器
linux服务器请求时间服务器,同步时间
ntp常用服务器
中国国家授时中心:210.72.145.44
NTP服务器(上海) :ntp.api.bz
经测试中国国家授时中心与NTP上海服务器可以正常同步时间,注意需要加上-u参数!
ntpdate -u ntp.api.bz
ntpdate -u 210.72.145.44
国外:
美国:time.nist.gov
复旦:ntp.fudan.edu.cn
微软公司授时主机(美国) :time.windows.com
台警大授时中心(台湾):asia.pool.ntp.org