1. 什么是大数据
• 狭义上:对海量数据进行处理的软件技术体系
• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能
2.大数据的5个主要特征:
volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)
3.分布式系统和集群
分布式:是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情
举例:一个餐厅中有前台接待、服务员和厨师,他们各自负责自己的业务,通过标准化流程和通信机制协同工作,共同为顾客提供服务。
集群:所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机 联合起来工作(服务),可以是并行的,也可以是做备份。
举例:一个餐厅为了应对高峰期流量,防止负责某块业务的人请假影响餐厅服务,所以设置了多个前台接待、多组上菜的服务员和多名厨师,所有这些人在同一个餐厅内工作,共同处理顾客订单。这样就可以在一个前台暂时离岗时仍然能够保证服务不中断。
分布式和集群区别?
分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架
Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群包含
- NameNode
- DataNode
- SecondaryNameNode
YARN集群包含:
- ResourceManager
- NodeManager
HDFS模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块:
ResourceManager:接收用户的计算请求任务, 并负责集群的资源分配
NodeManager: 负责执行主节点分配的任务