1,分布式和集群区别?
分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
2,Hadoop框架内容
狭义解释
Hadoop指Apache这款开源框架,它的核心组件有:
HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE(分布式运算编程框架):解决海量数据计算
YARN(作业调度和集群资源管理的框架):解决资源任务调度
广义解释
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
3,Hadoop架构
Hadoop模块之间的关系
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
MapReduce的运行需要由Yarn集群来提供资源调度。
1. 什么是大数据
• 狭义上:对海量数据进行处理的软件技术体系
• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能
2.大数据的5个主要特征:
volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)