大数据技术之Hadoop（二）

最新推荐文章于 2024-06-17 09:11:58 发布

何苏三月

最新推荐文章于 2024-06-17 09:11:58 发布

阅读量810

点赞数

分类专栏：大数据技术文章标签：大数据 hadoop 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YuanFudao/article/details/132076664

版权

大数据技术专栏收录该内容

9 篇文章 4 订阅

订阅专栏

目录

一、Hadoop的诞生

二、大数据概述

三、大数据软件生态

3.1 数据存储相关技术

3.2 数据计算相关技术

3.3 数据传输相关技术

四、什么是Hadoop

本篇主要讲解大数据的核心概念以及Hadoop的基本介绍。

一、Hadoop的诞生

大数据的发展与日益庞大的数据量是密不可分的。从2000年左右开始，全球互联网逐步建成。各大企业和政府机构有海量数据亟须解决。

08年之前，大数据技术是大型企业的高精尖技术。08年之后，因为Hadoop的开源，使得一些中小企业也能运用大数据技术，处理日益庞大的数据量了。

从Hadoop开始，大数据就开始蓬勃发展起来了。从它上面推生出众多的技术栈。

二、大数据概述

使用分布式技术完成海量数据的处理，得到数据蕴藏的价值。

大数据的5个主要特征

一句话总结就是：从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

由此得出大数据的三大核心工作：海量数据的计算、存储、传输

三、大数据软件生态

3.1 数据存储相关技术

Apache Hadoop框架内的组件HDFS

是大数据体系中使用最为广泛的分布式存储技术。

Apache HBase

HBase是大数据体系内使用非常广泛的NoSQL kv型数据库技术。

HBase是基于HDFS之上构建的技术。

Apache Kudu

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎。

云平台存储组件

各大云平台厂商也有相应的大数据存储组件。如阿里云的OSS，AWS的S3等等。

3.2 数据计算相关技术

Apache Hadoop框架内的组件MapReduce

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎，对大数据的发展做出了卓越的贡献！

Apchache Hive

Apache Hive是一款以SQL为主要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术。

Apache Hive诞生很早，至今仍活跃在大数据一线，被许多公司使用。

Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

是大数据体系中的明星计算产品。

Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算（流计算）领域，Flink占据了大数据的国内市场。

3.3 数据传输相关技术

Apache Kafka

Apache Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品。

Apache Pulsar

Apache Pulsar同样也是一款分布式的消息系统。在大数据领域中也有非常多的使用者。

Apache Flume

Apache Flume是一款流式数据采集工具，可以从非常多的数据源中完成数据采集传输的任务。

🍑PS：以上只是列举了大数据技术中的一部分，实际上还包含很多技术。这里就不一一列举了。

四、什么是Hadoop

简单说，Hadoop包含：

分布式数据存储技术（HDFS）

分布式数据计算技术（MapReduce）

分布式资源调度技术（YARN）

从前面讲解中，我们可以清楚的发现，Hadoop包含了大数据三大核心任务的前两个：海量数据的计算和存储。

关于Hadoop的版本分为两种，一种是Apache官方的开源社区版，另一种是各商业公司根据开源社区版个性化定制的商业发行版。本教程主要以开源社区版为例进行讲解。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据技术之Hadoop（二）

使用分布式技术完成海量数据的处理，得到数据蕴藏的价值。大数据的5个主要特征一句话总结就是：从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。由此得出大数据的三大核心工作海量数据的计算存储传输简单说，Hadoop包含：分布式数据存储技术（HDFS）分布式数据计算技术（MapReduce）分布式资源调度技术（YARN）从前面讲解中，我们可以清楚的发现，Hadoop包含了大数据三大核心任务的前两个：海量数据的计算和存储。
复制链接

扫一扫

专栏目录

何苏三月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

Java领域新星创作者

79: 原创

859: 周排名

1万+: 总排名

20万+: 访问

: 等级

1714: 积分

1万+: 粉丝

626: 获赞

75: 评论

2391: 收藏

私信

关注

热门文章

分类专栏

python 7篇
Spring 11篇
编程环境安装 17篇
Java 7篇
前端 4篇
数据库 2篇
大数据技术 9篇
消息中间件 2篇
EasyExcel 2篇
Mybatis 2篇
Swagger 1篇
JUC系列 6篇

最新评论

Thymeleaf详细教程（SpringBoot版）
小王毕业啦: 博主的这篇关于Thymeleaf详细教程（SpringBoot版）的文章真的让我大开眼界。在阅读过程中，我深深感受到了博主对于这个主题的深刻理解和扎实功底。文章里的细节描写非常到位，让我受益匪浅。期待博主未来能够继续分享更多这样有价值的文章，同时也希望能够得到博主的指导，一起共同进步。非常感谢博主的分享和支持！
uniapp从入门到精通（全网保姆式教程）~ 别再说你不会开发小程序了
feifeifei666: 中间上面,默认普通编译,下拉切换test
uniapp从入门到精通（全网保姆式教程）~ 别再说你不会开发小程序了
feifeifei666: 牛啊, 跟着入门了. 官方的知识点太多了
uniapp从入门到精通（全网保姆式教程）~ 别再说你不会开发小程序了
w1939459: 好优秀！！！已学习求更
uniapp从入门到精通（全网保姆式教程）~ 别再说你不会开发小程序了
YesPMPYesPMP: 互联网众包平台Yespmp，帮助项目实现落地。平台提供全方位的服务，包括IT项目开发、运营推广、创意设计、灵活用工等多个领域。它为项目发包方和接包服务商提供了一个交流和合作的平台，帮助双方找到合适的合作伙伴，解决项目管理中的各种痛点，如项目风险高、成本和进度控制困难等。同时，平台还提供项目监理、开发工具包、虚拟课堂等支持，帮助项目从设计到开发再到运营的整个周期顺利实施。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

何苏三月 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。