概念
- 是什么? == 解决海量数据的存储和分析计算问题==
- 发展历史? 。。。。。。
- 三大版本 ? Apache、Cloudera、Hortonworks
- hadoop 四大优势:高可靠性(某个储存故障,数据不丢失)、高扩展性(方便扩展服务器)、高效性(并行工作)、高容错性(自动分配失败的任务给其他)
1.HDFS:分布式文件系统
NameNode(nn):存储元数据(告诉别人存储在哪,存储了什么信息)
Datanode(dn):具体存贮数据
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份
2.Yarn:
ResourceManager( RM):整个集群资源的老大
NodeManager(NM):每个节点服务的老大
ApplicationMaster(AM):单个任务的老大
Countainer:容器,相当于一个独立的服务器(好处:用完可以直接释放)
3.MapReduce:Map阶段和Reduce阶段 (分—整合 的过程)
4.三者阶段:
图
5.大数据生态体系:
环境准备(硬件、软件、IP地址、主机名称)
1.虚拟机创建:
/boot 1g
/swap 4g(内存不够的时候硬盘分配冒充内存)