hadoop学习笔记1-概述

一.HADOOP三大组件

hdfs负责存储  yarn负责调度和资源管理  mapreduce基于yarn
分布式存储+计算  
hadoop可以存储海量数据,并且对数据进行统计分析,比如通过hive sql(类似于普通sql)

hadoop生态圈是很大的,想学好大数据,要学的东西特别多,目前从它三大组件开始

(别的软件图标都是动物,只有zookeeper是人,看起来zookeeper像动物管理员)

二.hdfs

核心组件1:hdfs分布式文件存储系统,多副本 多个datanode  把文件存储到多个datanode上
特点:扩展性  容错性:多副本,挂了几台机器都没关系,只要有一台还在就对整体没影响   海量数据存储
为什么能处理海量数据:将大任务分解成小任务 , 一块磁盘分解成多个磁盘。对多个磁盘上的文件进行管理, 就是分布式文件管理系统—HDFS
每个文件有多个数据块,每个数据块有多个副本,多个副本存储在不同的datanode上
比如把一个文件拆成两个部分,每个部分有三个副本,就算有一个副本所在机器挂了也不会让整个文件出现问题

三.yarn

核心组件2:yarn资源调度系统,
特点:扩展性  容错性:出错时,可以进行一定次数的重试   多框架资源统一调度
多框架资源统一调度:可以调度hbase,hive,spark等多种大数据所需框架

四.mapreduce

核心组件3:mapreduce分布式计算框架
特点:扩展性  容错性   海量数据的离线处理
海量数据的离线处理:之所以离线处理,因为数据量太大,所以延时性大

(目前在我使用过程中发现mapreduce本身也很慢,怪不得大家都用spark,不知道是不是我没做优化)

四.HADOOP优势

hadoop优势
1.可靠性
 1.1副本形式存储,不容易丢失数据
 1.2发生错误后重新计算
2.扩展性
 2.1存储空间不够,可以增加节点便于扩展
 2.2一个集群可以包含数以千计的节点
3.其他
 3.1成熟
 3.2可以放在廉价机器上

五.扩展

1.狭义hadoop包括hdfs,yarn,mapreduce
2.广义hadoop包括范围很广,是hadoop生态圈,他们整个组成hadoop

3.其他大数据所需要的东西

    3.1.flume 收集日志
    3.2.sqoop 理解为sql to hadoop的简写  当然它也可以从hadoop to sql 数据交换工具
    3.3.hbase 数据库  可以存储大量数据

4.版本选择

apache原生的  但是当hive hbase等hadoop生态圈这些东西一起使用时,会有版本冲突问题
商业版   没有版本冲突

5.spark替换mapreduce

5.1 mapreduce是有默认排序的,但是很多应用场景都不需要排序,而且排序很消耗性能和时间
可以通过同为分布式计算框架的spark解决mapreduce的问题

5.2 spark也是apache下的
spark相当于给hadoop插上了翅膀,可见执行速度非常快

5.3 spark是一个计算引擎,它并不关注你的数据存到哪里了

5.4 spark能不能替换mapreduce?
网上看到的答案
两个的侧重点不一样,
mapReduce适合对实时性要求不高的计算(计算时中间结果溢写到磁盘),io消耗大,
spark是基于内存的计算框架,计算速度是很快的。一个是 时间换空间 另一个是 空间换时间。

我的想法:既然mapreduce还有人维护,没有被apache抛弃,说明还是有它用武之地的。

spark的源码是用scala写的(虽然我也不知道scala是什么)

5.5spark特点
1.speed
2.easy to use
3.通用
4.runs everyWhere

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值