DAY1———hadoop入门

概念

  • 是什么? == 解决海量数据的存储和分析计算问题==
  • 发展历史? 。。。。。。
  • 三大版本 ? Apache、Cloudera、Hortonworks
  • hadoop 四大优势:高可靠性(某个储存故障,数据不丢失)、高扩展性(方便扩展服务器)、高效性(并行工作)、高容错性(自动分配失败的任务给其他)

1.HDFS:分布式文件系统
NameNode(nn):存储元数据(告诉别人存储在哪,存储了什么信息)
Datanode(dn):具体存贮数据
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

2.Yarn
ResourceManager( RM):整个集群资源的老大
NodeManager(NM):每个节点服务的老大
ApplicationMaster(AM):单个任务的老大
Countainer:容器,相当于一个独立的服务器(好处:用完可以直接释放)

3.MapReduce:Map阶段和Reduce阶段 (分—整合 的过程)

4.三者阶段

5.大数据生态体系

环境准备(硬件、软件、IP地址、主机名称)

1.虚拟机创建:
/boot 1g
/swap 4g(内存不够的时候硬盘分配冒充内存)

用来备份崩溃的数据

hadoop生产集群搭建

常见错误
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值