大数据之旅:Hadoop入门与探索(黑马程序员)第一天

一,大数据之旅

1.大数据概述

1. 什么是大数据

狭义上:对海量数据进行处理的软件技术体系

广义上:数字化、信息化时代的基础支撑,以数据为生活赋能

2. 大数据的5个主要特征

3. 大数据的核心工作:

存储:妥善保存海量待处理数据

计算:完成海量数据的价值挖掘

传输:协助各个环节的数据传输

二,Hadoop入门

1. 什么是Hadoop

Hadoop是开源的技术框架,提供分布式存储、计算、资源 调度的解决方案

2.分布式系统和集群

(1)分布式和集群区别?

分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事

(2)大数据体系中,分布式的调度主要有2类架构模式

去中心化模式,没有明确的中心。众多服务器之间基于特定规则进行同步协调。

中心化模式,有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。

3.Hadoop集群搭建

集群简介:HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

HDFS集群 NameNode、DataNode、SecondaryNameNode

YARN集群 ResourceManager、NodeManager

4.HDFS:分布式文件系统

HDFS是Hadoop的核心组件之一,它提供了高容错性的数据存储能力,可以在低廉的硬件上构建高吞吐量的数据存储集群。HDFS将数据分成多个块(block),并将这些块存储在不同的节点上,实现了数据的分布式存储。通过HDFS,我们可以轻松地对大数据进行存储和管理。

5.MapReduce:分布式计算框架

MapReduce是Hadoop的另一个核心组件,它提供了一种分布式计算框架,用于处理和分析大数据。MapReduce将复杂的计算任务拆分成多个简单的子任务,并在集群中的多个节点上并行执行这些子任务。通过Map和Reduce两个阶段,MapReduce能够高效地处理大规模数据集,并输出计算结果。

经过一段时间的学习和实践,我对Hadoop有了更加深入的了解。虽然目前我还只是Hadoop的初学者,但我已经感受到了它的强大和魅力。未来,我计划继续深入学习Hadoop的生态系统,如HBase、Hive等,以便更好地应对大数据处理的挑战。学习Hadoop的过程虽然充满挑战,但收获也是巨大的。它让我对大数据处理有了全新的认识,也让我更加坚定了自己在IT领域的职业发展方向。我相信,在未来的日子里,随着我对Hadoop技术的不断深入学习和实践,我一定能够在大数据领域取得更好的成绩。

  • 11
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值