分布式存储系统的第一印象
HDFS是基于谷歌的GFS的克隆版本
HDFS的特点:可扩展性(当节点不够添加一台机器就可以了),可容错的(多副本的方式可存储的),海量数据的存储
将上传文件切分成指定大小的数据块(128M)并以多副本的存储在多个机器上(处理对象任然是文件,具体的切分、多副本和容错由hadoop完成)
fiflename文件名称
numreplicas数据重复次数
block-id被重复的数据编号
资源调度管理系统YARN的第一印象
yarn负责整个集群资源的调度和整理(通俗的讲就是当一个作业被调度到机器运行时你需要多少的CPU/内存,这些由统一的yarn完成)
yarn的特点:可扩展性、可容错的(资源调度重试,重试次数可自由设定)和多框架统一资源调度(可支持spark)
分布式计算框架MapReduce的第一印象
特点:扩容性、容错性和海量数据离线处理
HADOOP生态圈
habase:数据存储查询
Hive:数据的离线批处理
flume:日志收集
sqoop:做数据交换------从数据库中