Hadoop 教程
文章平均质量分 82
Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
二当家的素材网
美好的人眼里映出的世界也是美好的~
展开
-
3.0 Hadoop 概念
本章着重介绍 Hadoop 中的概念和组成部分,属于理论章节。如果你比较着急可以跳过。但作者不建议跳过,因为它与后面的章节息息相关。原创 2024-02-04 11:50:40 · 1075 阅读 · 0 评论 -
7.0 MapReduce编程实例教程
MapReduce 依赖 Hadoop 的库,但由于本教程使用的 Hadoop 运行环境是 Docker 容器,难以部署开发环境,所以真正的开发工作(包含调试)将需要一台运行 Hadoop 的计算机。在学习了 MapReduce 的使用之后,我们已经可以处理字数统计之类的统计和搜索任务,但是调查上 MapReduce 还有很多可以做的事情。根据当前情况,有的 Docker 环境中安装的 JDK 不支持中文,所以保险起见,请去掉以上代码中的中文注释。为了简单的展示这个过程,我们将手工编写一个字数统计程序。原创 2024-02-04 14:53:18 · 317 阅读 · 0 评论 -
6.0 MapReduce 服务使用教程
在学习了之前的 MapReduce 概念之后,我们应该已经知道什么是 Map 和 Reduce,并了解了他们的工作方式。本章将学习如何使用 MapReduce。原创 2024-02-04 14:47:20 · 589 阅读 · 0 评论 -
5.0 HDFS 集群服务建立教程
HDFS 集群是建立在 Hadoop 集群之上的,由于 HDFS 是 Hadoop 最主要的守护进程,所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。使用 Docker 可以更加方便地、高效地构建出一个集群环境。原创 2024-02-04 14:39:34 · 558 阅读 · 0 评论 -
4.0 HDFS 配置与使用
Hadoop 仅作为库存在,可以在单计算机上执行 MapReduce 任务,仅用于开发者搭建学习和试验环境。:此模式 Hadoop 将以守护进程的形式在单机运行,一般用于开发者搭建学习和试验环境。:此模式是 Hadoop 的生产环境模式,也就是说这才是 Hadoop 真正使用的模式,用于提供生产级服务。原创 2024-02-04 14:33:02 · 948 阅读 · 0 评论 -
2.0 Hadoop 运行环境
为了解决这些问题,我们有一个非常成熟的方式。Docker 是一个容器管理系统,它可以向虚拟机一样运行多个"虚拟机"(容器),并构成一个集群。因为虚拟机会完整的虚拟出一个计算机来,所以会消耗大量的硬件资源且效率低下,而 Docker 仅提供一个独立的、可复制的运行环境,实际上容器中所有进程依然在主机上的内核中被执行,因此它的效率几乎和主机上的进程一样(接近100%)。本教程将会以 Docker 为底层环境来描述 Hadoop 的使用,如果你不会使用 Docker 并且不了解更好的方式,请学习。原创 2024-02-04 11:48:56 · 1681 阅读 · 0 评论 -
1.0 Hadoop 教程
Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。Hadoop 使用 Java 开发,所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS,HDFS) 和 MapReduce。原创 2024-02-04 11:39:08 · 634 阅读 · 0 评论