question 1: what is apache hadoop?
The apache hadoop project devlops open-source software for reliable , scalable, distributed computing.
解决了什么样的问题:
1:海量数据的存储(HDFS) 2:海量数据的分析(MapReduce)
Hadoop的核心:
HDFS: Hadoop Distributed File System. 分布式文件系统
MapReduce: 并行计算框架
YARN:Yet Another Resource Negotiator(Hadoop 2.0 之后出现,其上可以运行多个计算框架,包括Hadoop 1.0中的MapReduce)
Hadoop包目录结构:
bin:存放一些可执行的脚本:hadoop、hdfs 、 yarn等等。
sbin:存放一些脚本 例如 start-all、 start-yarn、stop-yarn等等
etc:存放Hadoop的配置文件
HDFS部门:老大--》NameNode, (SecondaryNameNode是NameNode的助理) 小弟--》DataNode
YARN部门: 老大--》ResourceManager 小弟--》NodeManager