目录
1.介绍:
广义:以 apache hadoop软件为主的生态圈: hive、flume、hbase、kafka、spark、flink
狭义:apache hadoop软件
hdfs 存储 海量的数据
mapreduce 计算、分析
yarn 资源和作业的调度
1.hdfs 存储 海量的数据:
namenode 负责指挥数据的存储
datanode 主要负责数据的存储
seconderynamenode 主要辅助namenode工作
2.yarn 资源和作业的调度
resourcemanager 负责指挥资源分配
nodemanager 真正的资源
2.下载
1.官网: hadoop.apache.org / project.apache.org
2.https://archive.apache.org/dist
3.部署
3.1伪分布式模式
所有进程在一台机器上运行,所有操作在hadoop用户下进行
1.部署jdk
tar -zxvf ./jdk-8u45-linux-x64.gz -C ~/app/ //解压压缩包
ln -s ./jdk1.8.0_45/ java //建立软连接 配置