今天是认知实习的第一天。第一节课老师详细讲述了大数据专业的行业形势,大数据岗位需要的技术栈等,让我对以后的就业方向有了深刻地认知。
第二节课,我们学习了hadoop的集群,此次是一次深入大数据处理领域的宝贵经历。Hadoop的分布式架构让我深刻理解了大数据处理的复杂性和高效性。在学习过程中,我掌握了Hadoop的基本组件和原理,包括HDFS、MapReduce等:
- 分布式和集群的区别:
分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。
集群:集群主要是将同一个业务,部署在多个服务器上,多个人在一起做同样的事。
- hadoop的分布式架构模式:主从模式(中心化模式)的架构。
- Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架,其内部细分为三个功能组件,分别是:
HDFS:是Hadoop内的分布式存储组件,可以构建分布式文件系统用于数据存储
MapReduce:是Hadoop内分布式计算组件,提供编程接口供用户开发分布式计算程序
YARN:是Hadoop内分布式资源调度组件,可供用户整体大规模集群的资源使用。
- hadoop2.x架构内部模型-HDFS和Yarn
HDFS模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据;SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理;DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配;NodeManager:负责执行主节点分配的任务