Hadoop大数据处理技术-初步了解Hadoop

2.什么是云计算?

云计算,听起来就像是什么仙气十足的东西,但其实它并不神秘。简单来说,云计算就是通过网络(通常是互联网)来提供各种计算服务,包括存储、数据库、软件、网络等,而不是依靠个人计算机或本地服务器来处理。想象一下,就好像你可以通过互联网租用一台强大的计算机,而不必亲自去购买和维护它。

云计算有三个主要模型:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。

  • 基础设施即服务(IaaS):提供了基本的计算资源,如虚拟机、存储空间和网络功能。你可以根据自己的需求灵活地使用这些资源,而不必担心硬件设备的购买和维护。

  • 平台即服务(PaaS):除了基础的计算资源外,还提供了开发和部署应用程序所需的工具和环境。开发人员可以在云平台上构建自己的应用程序,而无需担心底层的基础设施问题。

  • 软件即服务(SaaS):是指通过互联网提供的软件应用程序,用户可以通过订阅或付费模式来使用,而无需安装、维护和升级软件。

云计算的好处有很多,比如灵活性高、成本低、易扩展等。它已经成为了现代企业和个人处理数据、运行应用程序的主流方式之一,也改变了我们的生活和工作方式。所以,无论是你是一名开发者、企业主还是普通用户,了解并掌握云计算的知识都是非常有益的。

3.Hadoop名称来源

4.Hadoop是什么

1)解决问题:

海量数据的存储(HDFS):网盘-百度 360 HDFS-hadoop file system

海量数据的分析(MapReduce):分布式计算模型

资源管理调度(YARN):有了yarn 可以运行各种计算模型,storm,spark,mapreduce 可以运行

2)Hadoop之父

Hadoop之父是Doug Cutting(道格·卡廷),他是一位计算机科学家,也是大数据领域的一位重要人物。Doug Cutting最为人所知的是他与Mike Cafarella共同创建了Hadoop这个开源软件项目。Hadoop最初是基于Google的MapReduce和Google文件系统(GFS)的思想而开发的。

Doug Cutting起初是为了解决Nutch项目中的大规模数据处理问题而创建了Hadoop。随后,Hadoop成为了Apache软件基金会的顶级项目,并成为了处理大规模数据的标准工具之一。它的分布式计算框架和分布式存储系统为大数据处理提供了强大的支持。

除了Hadoop,Doug Cutting还是其他一些重要开源项目的贡献者,比如Lucene和Apache HBase等。他对大数据领域的贡献被广泛认可,并且在大数据技术的发展和推广中起到了重要作用。

5.Hadoop能做什么

1)离线日志(Hadoop擅长)

BAT:百度 阿里巴巴 腾讯

2)实时计算是什么

3)MySQL主站备库

6.Hadoop生态圈(大概的学习内容)

Hive:可以认为是MySQL 但是MySQL将数据存储到Windows上了 而Hive将数据存储到hdfs 计算时使用的也是MapReduce 分布式存储和分布式计算 所以 空间无限大(擅长查询数据)

Mahout:Spark

HBase:数据库(擅长增删改)

Sqoop:数据库ETL工具(数据迁移)

Flume:数据采集

ETL:

ETL是指数据的提取(Extraction)、转换(Transformation)和加载(Loading),是数据仓库构建过程中的一项重要工作。简单来说,ETL就是将数据从一个地方提取出来,经过一系列的转换处理,最后加载到目标地点,以满足分析和查询的需求。

首先是提取(Extraction),这一步骤涉及从不同的数据源中收集数据,可能是数据库、文件、API接口等等。数据可以是结构化的、半结构化的或非结构化的,ETL工具能够从各种不同格式的数据源中提取数据。

接着是转换(Transformation),在这一步骤中,数据经过清洗、过滤、转换等操作,以满足数据仓库的需求和标准。转换可能包括数据清理、格式转换、数据合并、计算衍生字段等。

最后是加载(Loading),即将经过转换处理后的数据加载到目标系统,通常是数据仓库或数据湖。加载过程可能分为全量加载和增量加载两种方式,全量加载是将整个数据集加载到目标系统中,而增量加载则是只加载新增或变更的数据部分。

ETL是数据仓库构建中至关重要的一环,它能够帮助组织将分散的数据整合到一起,为数据分析、报告和决策提供可靠的基础。近年来,随着大数据和数据湖的兴起,ETL的概念也在演进,出现了更灵活、更实时的数据集成和处理方式。

  • 12
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值