大数据5大特征:
a.数据体量大 采集数据量大、存储数据量大、计算数据量大
b.种类、来源多样化
c.价值密度低
d.速度快 --数据增长速度快 获取数据速度快 数据处理速度快
f.数据的质量
分布式和集群
分布式 多台机器每台机器上部署不同组件
集群 多台机器每台机器上部署相同组件
Hadoop三大组件
HDFS -- Hadoop Distributed File System Hadoop的分布式文件存储系统,解决海量数据存储
主要负责数据的存储和管理,可以将大数据集分成多个数据块,并将这些数据块分配到不同的计算节点上存储,提高数据的可靠性和处理效率
MapReduce 是Hadoop的分布式计算框架,解决海量数据计算
提供了一种简单的编程模型,通过将大规模数据分解成多个小任务并行处理,可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段,其中 Map 阶段将数据分解成多个小块进行处理,Reduce 阶段将处理结果合并
YARN -- Yet Another Resource Negotiator Hadoop的资源管理器,解决资源任务调度
负责为多个应用程序分配和管理计算资源,可以有效地提高计算资源的利用率
Hive 是Hadoop的数据仓库项目
Spark 是一个通用且快速的集群计算系统