黑马程序员——Hadoop入门笔记(第一天)

什么是大数据?

狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。

广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

大数据的5个特征

Volume 体积 Variety 种类 Value 价值 Velocity 速度 Veracity 质量

大数据的核心工作其实就是:经过数据存储,数据计算,数据传输,从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

存储:妥善保存海量待处理数据。计算:完成海量数据的价值挖掘。传输:协助各个环节的数据传输。

Hadoop入门

 分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情。

所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。

大数据体系中,分布式的调度主要有2类架构模式:去中心化模式,中心化模式。

大数据框架,大多数的基础架构上,都是符合:中心化模式的。

Hadoop指Apache这款开源框架,它的核心组件有:

HDFS(分布式文件系统):解决海量数据存储。

MAPREDUCE(分布式运算编程框架):解决海量数据计算。

YARN(作业调度和集群资源管理的框架):解决资源任务调度。

HDFS模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据

SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理

DataNode:集群当中的从节点,主要用于存储集群当中的各种数据

数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配

NodeManager:负责执行主节点分配的任务

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值