阶段二，hadoop，1.基础

最新推荐文章于 2024-09-01 21:08:00 发布

He_tian_jun.xml

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量43

点赞数

文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/m0_68178652/article/details/125513468

版权

一、基础

1.优势：高可靠性、高扩展性、高效性、高容错性

2.组成：

1x：mapreduce、hdfs、common
2x：多加一个yarn

3.hdfs：分布式文件系统

NameNode：元数据
DataNode：数据
Secondary NameNode：对元数据备份

4.yarn：资源协调

ResourceManager：集群资源老大
NodeManager：单节点服务器老大
ApplicationMaster：单任务老大
Countainner：分Maptask、ReduceTask

5.mapreduce：计算分为两个阶段

Map：并行处理输入数据
Reduce：Map结果进行汇总

二、环境

1.安装jdk、hadoop

2.下载地址 https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

3.配置环境变量

/etc/profile.d/下建文件，编写全局变量路径，并追加到path
再source，或者断开重连

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

He_tian_jun.xml

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阶段二，hadoop，1.基础

阶段二，hadoop，1.基础
复制链接

扫一扫

Hadoop 1.x：体系结构，主要组件以及HDFS和MapReduce的工作方式

从零开始的教程世界

07-09

1044

Before reading this post, please go through my previous post at “Introduction to Hadoop” to get some Apache Hadoop Basics. 在阅读这篇文章之前，请仔细阅读我在Hadoop简介上的文章，以获取一些Apache Hadoop基础知识。 In this post, we are g...

大数据技术——Hadoop3.X入门搭建+安装调优（1.入门）

m0_52435951的博客

04-10

3763

大数据技术——Hadoop3.X入门搭建+安装调优（1.入门）

参与评论您还未登录，请先登录后发表或查看评论

Hadoop 3.x（入门）----【Hadoop概述】

是微风，是晚霞，是无可替代

09-02

728

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的 DataNode 等。DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。Seconddary NameNode（2nn）：每隔一段时间对 NameNode 元数据备份。

Hadoop3.x基础（1）

belle_mei的博客

01-29

1019

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——**Hadoop生态圈**。Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

大数据技术——Hadoop 3.X版本(入门知识)

weixin_52424868的博客

08-09

739

一篇小短文带你简单了解Hadoop！

【大数据之Hadoop3.x】

qq_43246115的博客

02-20

977

尚硅谷学习Hadoop的笔记

Hadoop——（Hadoop框架，Hadoop的优缺点，Hadoop1.x和2.x的版本区别，Hadoop架构，Hadoop目录结构）

qq_43408367的博客

04-08

2156

大数据是指无法再一定时间范围内用常规软件工具进行捕捉，管理和处理的数据集合，同时大数据也是需要新的处理模式才能具有更强的决策力，洞察发现力和流程优化能力的海量以及多样化的信息资产。大数据的特点：大量，高速，多样，真实以及低价值。大量：指的是采集，存储和计算的数据量都非常大。高速：指的是在大数据时代，数据的创建，存储，分析都被要求高速处理，比如电商网站的个性化推荐尽可能要求实时完成推荐，这也是大数据区别于传统数据挖掘的显著特征。多样。

【大数据】Hadoop新手小白学习初体验（尚硅谷hadoop3.x教程同步笔记）

YG15165的博客

07-04

1025

Hadoop是用来解决海量数据的存储和海量数据的分析计算问题，一个分布式系统基础架构高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度高容错性：能够自动将失败的任务重新分配Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

Hadoop1.和hadoop2.的异同简洁总结

一尘在心的博客

08-29

1426

Hadoop1.和hadoop2.的异同 1.1 namenode可以以集群的形式部署了，增强了namenode水平扩展能力和可用性。 MapReduce将JobTracker中的资源管理和任务的生命周期，更名为yarn。(ResourceManager和nodeManager) MapReduce将JobTracker中的资源管理和任务的生命周期，更名为yarn。(Resour...

Hadoop2.x-基础[环境搭建篇](Hadoop各组件介绍、安装与部署、本地模式、伪分布式、完全分布式)

JolyouLu的博客

08-07

1552

经过前面的使用已经对scp与rsync命令有了一定的理解，但是可以在文件分发时还是比较麻烦，每台远程主机对应都要执行一条命令当远程主机很多的情况下还是需要执行很多命令，所有需要编写shell脚本实现一条命令可以分发多个服务器单节点启动使用如下命令登录到每个服务器上单节点启动指定服务器的hadoop服务。...

spark-3.1.2-bin-hadoop3.2.tgz

09-17

1. **DAG（有向无环图）调度**：Spark基于DAG的工作流设计，使得任务被拆分为多个阶段，提高执行效率。 2. **Resilient Distributed Datasets (RDD)**：RDD是Spark的基本数据结构，它是不可变、分区的元素集合，能够...

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

06-27

- spark-3.1.2-bin-hadoop2.7.tgz：这个版本除了包含基本的Spark组件外，还集成了Hadoop 2.7的二进制依赖，方便在Hadoop集群上直接部署和运行Spark应用。 5. 安装与运行： - 解压：使用tar命令解压tgz文件，rar...

hadoop-2.7.4.tar.gz

08-18

4. **Hadoop Common**：这是Hadoop框架的基础组件，包含各种通用的工具和服务，如网络通信、I/O操作、安全机制等，为Hadoop其他组件提供基础支持。 5. **Windows安装与配置**：虽然Hadoop最初主要针对Linux环境，但...

hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

05-17

在下载hadoop-2.7.3.tar.gz这个压缩包后，用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后，用户需要根据自己的系统环境进行适当...

hadoop-3.1.4.tar.gz

08-03

1. 解压下载的Hadoop压缩包：`tar -zxvf hadoop-3.1.4.tar.gz` 2. 将解压后的目录移动到一个适当的系统路径，如 `/usr/local/hadoop`。 3. 配置环境变量：在`~/.bashrc`或`~/.bash_profile`文件中添加Hadoop的路径，...

大数据技术概述

weixin_51591328的博客

08-28

1153

知识点其他

SpringCloud Alibaba】（十三）学习 RocketMQ 消息队列

sco5282的博客

09-01

768

引入MQ最大的优点就是异步解耦和流量削峰，但是引入 MQ 后也有很多需要注意的事项和问题，主要包括：系统的整体可用性降低、系统的复杂度变高、引入了消息一致性的问题。重新打开 cmd 命令行，进入 RocketMQ 的 bin 目录，在命令行输入如下命令调用 RocketMQ 自带的消费者程序消费 RocketMQ 中的消息。下单成功后将订单的信息发送到 RocketMQ，然后用户微服务订阅 RocketMQ 的消息，接收到消息后进行打印。说明生产者发送到 RocketMQ 的消息，被消费者成功消费到了。

自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理