一,大数据之旅
1.大数据概述
1. 什么是大数据
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化、信息化时代的基础支撑,以数据为生活赋能
2. 大数据的5个主要特征
3. 大数据的核心工作:
存储:妥善保存海量待处理数据
计算:完成海量数据的价值挖掘
传输:协助各个环节的数据传输
二,Hadoop入门
1. 什么是Hadoop
Hadoop是开源的技术框架,提供分布式存储、计算、资源 调度的解决方案
2.分布式系统和集群
(1)分布式和集群区别?
分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
(2)大数据体系中,分布式的调度主要有2类架构模式
去中心化模式,没有明确的中心。众多服务器之间基于特定规则进行同步协调。
中心化模式,有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。
3.Hadoop集群搭建
集群简介:HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群 NameNode、DataNode、SecondaryNameNode
YARN集群 ResourceManager、NodeManager
4.HDFS:分布式文件系统
HDFS是Hadoop的核心组件之一,它提供了高容错性的数据存储能力,可以在低廉的硬件上构建高吞吐量的数据存储集群。HDFS将数据分成多个块(block),并将这些块存储在不同的节点上,实现了数据的分布式存储。通过HDFS,我们可以轻松地对大数据进行存储和管理。
5.MapReduce:分布式计算框架
MapReduce是Hadoop的另一个核心组件,它提供了一种分布式计算框架,用于处理和分析大数据。MapReduce将复杂的计算任务拆分成多个简单的子任务,并在集群中的多个节点上并行执行这些子任务。通过Map和Reduce两个阶段,MapReduce能够高效地处理大规模数据集,并输出计算结果。
经过一段时间的学习和实践,我对Hadoop有了更加深入的了解。虽然目前我还只是Hadoop的初学者,但我已经感受到了它的强大和魅力。未来,我计划继续深入学习Hadoop的生态系统,如HBase、Hive等,以便更好地应对大数据处理的挑战。学习Hadoop的过程虽然充满挑战,但收获也是巨大的。它让我对大数据处理有了全新的认识,也让我更加坚定了自己在IT领域的职业发展方向。我相信,在未来的日子里,随着我对Hadoop技术的不断深入学习和实践,我一定能够在大数据领域取得更好的成绩。