什么是大数据?
狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。
大数据的5个特征
Volume 体积 Variety 种类 Value 价值 Velocity 速度 Veracity 质量
大数据的核心工作其实就是:经过数据存储,数据计算,数据传输,从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。
存储:妥善保存海量待处理数据。计算:完成海量数据的价值挖掘。传输:协助各个环节的数据传输。
Hadoop入门
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情。
所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。
大数据体系中,分布式的调度主要有2类架构模式:去中心化模式,中心化模式。
大数据框架,大多数的基础架构上,都是符合:中心化模式的。
Hadoop指Apache这款开源框架,它的核心组件有:
HDFS(分布式文件系统):解决海量数据存储。
MAPREDUCE(分布式运算编程框架):解决海量数据计算。
YARN(作业调度和集群资源管理的框架):解决资源任务调度。
HDFS模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配
NodeManager:负责执行主节点分配的任务