大数据与Hadoop学习Day1

1. 什么是大数据

• 狭义上:对海量数据进行处理的软件技术体系

• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能  

2.大数据的5个主要特征:

volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)

3.分布式系统和集群

分布式:是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情

举例:一个餐厅中有前台接待、服务员和厨师,他们各自负责自己的业务,通过标准化流程和通信机制协同工作,共同为顾客提供服务。

集群:所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机 联合起来工作(服务),可以是并行的,也可以是做备份。

举例:一个餐厅为了应对高峰期流量,防止负责某块业务的人请假影响餐厅服务,所以设置了多个前台接待、多组上菜的服务员和多名厨师,所有这些人在同一个餐厅内工作,共同处理顾客订单。这样就可以在一个前台暂时离岗时仍然能够保证服务不中断。

分布式和集群区别?

分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事

集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事

Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

HDFS集群包含

  1. NameNode
  2. DataNode
  3. SecondaryNameNode

YARN集群包含:

  1. ResourceManager
  2. NodeManager

HDFS模块:

NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:

ResourceManager:接收用户的计算请求任务, 并负责集群的资源分配

NodeManager: 负责执行主节点分配的任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值