Hadoop
- hadoop中的3个分布式
HDFS 分布式文件存储系统
Mapreduce 分布式计算框架
YARN 分布式资源调度器
- 大数据 云计算 hadoop 关系
大数据是云计算的产物,底层是hadoop
- 云计算3S
iaas 基础设施及服务
paas平台及服务
Saas 软件及服务
- HDFS中的3个Node
nameNode 名字节点(系统快照FSImage 编辑日志editLog)
secondaryNameNode editLog.new
dataNode 数据节点
5.2个机制
副本机制:每个dataNode的数据默认有2个备份
心跳机制:nameNode定期向dataNode发送数据包,如果超过时长不返回再开一台
- 如果存储数据
切成块 block 默认1.x 64MB 2.x 128MB
- 如何访问HDFS
http://ip:50070 /http://master:50070
- Shell命令行操作hdfs
Put -》hadoop fs -put 文件名 /路径
Cat -》hadoop fs -cat 文件名
Rm -r -》hadoop fs -rm -r 文件名
Mkdir -> hadoop fs -mkdir -p /aa/bb
MR(MapReduce)
- 概念 分而治之,map(映射) reduce(归并)
- 执行流程图.
- 两个组件 Combinner
合成器 作用类似于Reduce 提前一步归并
Partitioner
分区 :将相同key 放到不同的reduce中
- 特点:
数据量 大
运算速度 慢
文件存储 HDFS
扩展性 强
适用于海量数据离线计算机