Apache Hadoop生态
文章平均质量分 95
Hadoop系列笔记
@是小白吖
CSDN博主,Java、HarmonyOS开发爱好者
一位用灵魂让代码飞起来的程序猿
展开
-
【Hadoop】Hadoop生态系列之搭建HadoopHA集群
指路牌Hadoop HA构建概述准备工作主机和服务启动映射表主机信息JDK安装和配置IP主机名映射关闭防火墙SSH免密码认证Zookeeper服务的安装与配置搭建Hadoop 集群(HDFS)解压并配置HADOOP环境变量配置`core-site.xml`配置机架脚本配置`hdfs-site.xml`配置`slaves`启动HDFS(集群初始化启动)查看机架信息Resource Manager搭建配置`yarn-site.xml`配置`mapred-site.xml`启动 | 关闭`Yarn`服务Hado原创 2020-10-09 19:08:08 · 1423 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之MapReduce Shuffle概述及常见问题
上一篇:Hadoop生态系列之InputForamt.class与OutputFormat.class分析指路牌MapReduce Shuffle定义MapReduce Shuffle常见问题MapReduce能否实现全局排序?如何干预MapReduce的分区策略?如何解决在MapReduce计算过程中的数据倾斜问题?MapReduce中Map、Reduce并行度是靠什么决定的?MapReduce调优策略MapReduce Shuffle定义MapReduce中,mapper 阶段处理的数据如何传递原创 2020-09-30 22:32:16 · 1109 阅读 · 0 评论 -
2022年大数据学习大纲(持续更新中...)
Hadoop系列课程序号传送门1Hadoop生态系列之Hadoop简述及环境搭建2Hadoop生态系列之HDFS架构简述3Hadoop生态系列之HDFS常用Shell命令实践及Java API操作HDFS4Hadoop生态系列之MapReduce概述及MapReduce任务开发与发布5Hadoop生态系列之InputForamt.class与OutputFormat.class分析......原创 2020-09-29 20:21:23 · 1575 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之InputForamt.class与OutputFormat.class分析
上一篇:Hadoop生态系列之MapReduce概述及MapReduce任务开发与发布指路牌InputForamt&OutputFormat整体设计InputFormat.classTextInputFormat.classNLineInputFormat.classKeyValueTextInputFormat.classMultipleInputs.classCombineFileInputFormat.classDBInputFormat.classOutputFormat.classsTe原创 2020-09-29 20:01:44 · 1453 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之MapReduce概述及MapReduce任务开发与发布
这里写目录标题MapReduce概述流程分析环境搭建MapReduce任务开发背景实现任务发布远程部署本地仿真跨平台提交本地仿真跨平台提交MapReduce概述MapReduce是一个 Hadoop 的并行计算框架,借鉴了函数式编程思想和矢量编程。Hadoop 中是充分利用了存储节点/Data Node运行所在主机的计算资源(CPU、内存、网络、少许磁盘)完成对任务的并行计算。Map Reduce框架会在所有的DataNode所在的物理主机启动一个计算资源管理者Node Manager用于管理本地的计原创 2020-09-29 16:39:22 · 1474 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之HDFS常用Shell命令实践及Java API操作HDFS
指路牌HDFS实践HDFS Shell 命令(常用)打印hadoop类路径格式化NameNodedfsadmin命令DFS命令-appendToFile-cat-chmod-copyFromLocal / -copyToLocal-mvToLocal/mvFromLocal-put/getJava API操作HDFS(了解)搭建开发步骤:文件上传文件下载删除文件回收站所有文件所有文件或文件夹HDFS实践HDFS Shell 命令(常用)打印hadoop类路径[root@CentOS ~]# hdfs原创 2020-09-28 19:31:31 · 1913 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之HDFS架构简述
路标HDFS架构简介架构NameNode & DataNodesSecondaryNameNode & NameNodeHDFS架构简介Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访原创 2020-09-25 21:52:40 · 1488 阅读 · 0 评论 -
【Hadoop】Hadoop生态系列之Hadoop简述及环境搭建
路标背景大数据背景Hadoop 诞生环境搭建--基于CentOS7搭建环境准备HADOOP安装背景随着信息化互联网|物联网发展要求,万物互联趋势势在必行。随之引发架构的演变由单一架构向高并发分布式架构演变。数据的存储也开始由原始的单机存储演变为分布式存储。JavaWeb:为了应对高并发和分布式提出的是LNMP(Linux、Nginx、MySQL、PHP)思想。海量数据存储|数据分析 :存储方案(HDFS)、计算方案(Map Reduce、Storm、Spark、Flink)大数据背景原创 2020-09-25 21:49:25 · 1580 阅读 · 0 评论