hdfs 分布式文件系统
mapreduce 大数据离线数据处理框架
yarn 统一资源管理和调度平台
hive 数据分析
sqoop 数据导入导出
hbase 大数据存储 非关系型数据库
flume 日志采集系统
spark 实时流式数据计算框架
hdfs
架构原理 配置 使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log
5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X 端口号是8020 1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容