Hadoop是什么?
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
Hadoop的优势有哪些?
1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
历代Hadoop的区别
Hadoop重要的框架组成部分
1.Hadoop Distributed File System
分布式文件系统简称HDFS
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
2.Yet Another Resource Negotiator
资源协调者,资源调度分配,简称YARN
1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
2)NodeManager(N M):单个节点服务器资源老大
3)ApplicationMaster(AM):单个任务运行的老大
3.MapReduce
1)Map 阶段并行处理输入数据
完全分布安装(三台)
前提条件,必须配备jdk环境(需要先卸载原有的环境),防火墙关闭,ssh免密登录
关闭防火墙命令:systemctl stop firewalld 防止开机自启:systemctl distable firewalld.service
配置主机名称映射hosts文件
下载解压到路径/opt/apps修改名称hadoop添加路径
这里我把握的路径展示出来
source /etc/profile生效
集群规划
配置核心文件
在/opt/apps/hadoop/etc/hadoop 下vim core-site.xml
vim hdfs-site.xml
vim yarn-site.xml
vim mapred-site.xml
workers
这里需要对.sh文件添加配置,以上环境变量中已经介绍
第一次启动集群需要格式化(初始化只能初始化一次,如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化)
hdfs namenode -format
然后就可正常启动了
在sbin下./start-sll.sh