Hadoop
文章平均质量分 85
chad__chang
大数据开发高级工程师、CSDN大数据领域新星创作者、阿里云专家博主、华为云大数据领域专家博主
[chad__chang大号](https://blog.csdn.net/u014645178?spm=1010.2135.3001.5421)
展开
-
HADOOP-3.2.2安装
zookeeper集群安装从官网下载hadoop-3.2.2.tar.gz地址:https://hadoop.apache.org/release/3.2.2.html集群规划上传安装hadoop-3.2.2.tar.gz 包解压到安装目录(我用的普通用户)2.修改配置文件core-site.xml3. 修改hdfs-site.xml4. 修改修改yarn-site.xml5.修改workers文件(老版本叫slave文件)6.修改hadoop-env.sh7.修改mapre原创 2023-01-05 11:36:04 · 1335 阅读 · 0 评论 -
Hadoop之MapReduce基本原理
2).Spill阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,还会将有相同分区号和key的数据进行排序。ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据,这些数据默认会保存在内存的缓冲区中,当内存的缓冲区达到一定的阀值的时候,就会将数据写到磁盘之上。shuffle是Mapreduce的核心,它分布在Mapreduce的map阶段和reduce阶段。原创 2022-10-31 19:50:13 · 177 阅读 · 0 评论 -
Hadoop之初识MapReduce
MapReduce的思想核心是“分而治之”。所谓“分而治之”就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的经验,也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。原创 2022-10-30 20:13:34 · 204 阅读 · 1 评论 -
Hadoop之HDFS的集群之间的数据复制、归档机制和安全模式
1.不同集群之间的数据复制1.1.集群内部文件拷贝scp1.2.跨集群之间的数据拷贝distcp2.Archive档案的使用2.1.如何创建Archive2.2.如何查看Archive2.3.如何解压Archive2.4.Archive注意事项3. HDFS安全模式3.1.安全模式概述3.2.安全模式配置原创 2022-10-29 21:09:56 · 1090 阅读 · 0 评论 -
【Hadoop生态】HDFS的元数据管理机制
hadoop元数据管理,Fsimage镜像文件、Edits编辑日志,一文读懂原创 2022-10-16 18:10:17 · 836 阅读 · 2 评论 -
【hadoop生态】HDFS的基本原理(读写流程,角色详细讲解)
HDFS角色讲解,读写流程详细讲解原创 2022-10-15 12:26:51 · 238 阅读 · 2 评论 -
【Hadoop生态】HDFS入门,看完就懂
HDFS是什么,HDFS的特征,HDFS的操作原创 2022-10-15 11:40:54 · 319 阅读 · 5 评论 -
【Hadoop技术篇】hive的优化,经典面试
hive的优化,经典面试原创 2022-10-10 11:26:16 · 358 阅读 · 2 评论 -
【Hadoop技术篇】hadoop的使用
hadoop启动和体验原创 2022-10-09 12:09:49 · 3079 阅读 · 4 评论 -
【Hadoop技术篇】YARN 作业执行流程
yarn的作业执行流程原创 2022-10-08 11:08:59 · 1116 阅读 · 7 评论 -
【Hadoop技术栈篇】认识Hadoop,起源和发展
什么是hadoop, hadoop的起源,发展, 现在的阶段原创 2022-10-07 19:59:56 · 451 阅读 · 0 评论 -
什么是MapReduce,一文带你读懂
什么是MapReduce,MapReduce的思想是什么,怎么理解MapReduce原创 2022-10-01 13:27:48 · 2249 阅读 · 1 评论