1、hadoop是适合海量数据的分布式存储和计算平台
2、包含:hdfs存储框架和MapReduce计算框架
3、hdfs(hadoop file system)架构:主存结构,(一主多存,2.x系统中已优化为二主多存)
主节点:namenode,接收用户操作请求、维护文件系统目录结构、管理文件与block之间和block和datanode的 关系。
从节点:datanode,存储文件、文件被区分为多个block存储在磁盘上、多个备份。
4、MapReduce 架构:主存架构
主节点:JobTracker,接收客户提交的计算任务、分配给TaskTracker、监控 TaskTracker执行情况。
从节点:TaskTracker,执行JobTracker分配的任务。
5、hadoop优势:扩容、成本低、高效率、可靠性(任务失败后自动重新部署计算任务)