【大数据】Hadoop快速入门

最新推荐文章于 2024-09-19 20:53:18 发布

开发者社区小百科

最新推荐文章于 2024-09-19 20:53:18 发布

阅读量229

点赞数

分类专栏：阿里云大学 Hadoop 文章标签：阿里云大学大数据 Hadoop

本文链接：https://blog.csdn.net/lsj960922/article/details/94611635

版权

阿里云大学同时被 2 个专栏收录

598 篇文章 11 订阅

订阅专栏

Hadoop

1 篇文章 0 订阅

订阅专栏

本文介绍了Hadoop作为应对大规模数据存储和计算的分布式框架，其核心组件包括HDFS和MapReduce。HDFS提供高容错性和高吞吐量的数据访问，适合大数据集应用程序。MapReduce则是用于分布式计算的模型。Hadoop常用于大数据量的离线场景，如日志处理、数据挖掘和行为分析等。了解更多信息，可参考阿里云开发者社区的大数据Hadoop课程。

摘要由CSDN通过智能技术生成

Hadoop是什么：

随着数据量的急剧增加，遇到的两个最直接的问题就是数据存储和计算(分析/利用)。

Hadoop是由Apache基金会所开发的一个用Java实现的分布式基础框架，也可以看做是一个支持开发、运行由通用计算设备组成的大型集群上的分布式应用的平台。Hadoop中的两个最重要的组件—HDFS和MapReduce就是用来解决海量数据(分布式)存储、海量数据(分布式)计算的。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

HDFS有两种节点，NameNode和DataNode。DataNode主要用来存储数据，NameNode管理着整个文件系统的交互。相对于普通的文件系统，HDFS显著的特点是分布式海量存储、备份机制。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。MapReduce：并行计算框架，MapReduce其实是一种分布式计算模型，多个计算机并行计算，共同做一件事情。

Hadoop的应用场景：

简单认识了什么是Hadoop，再来了解一下Hadoop一般都适用于哪些场景。

Hadoop主要应用于大数据量的离线场景，特点是大数据量、离线。