
hadoop
文章平均质量分 86
hadoop
岁月的眸
认定学习目标,不断提升自我!
展开
-
Hadoop-HA高可用集群启动nameNode莫名挂掉,排错解决
我们在执行start-dfs.sh的时候,默认启动顺序是namenode => datanode => journalnode => zkfc,如果journalnode和namenode不在一台机器启动的话,很容易因为网络延迟问题导致NN无法连接JN,无法实现选举,最后导致刚刚启动的namenode会突然挂掉一个主的,留下一个standy的,虽然有NN启动时有重试机制等待JN的启动,但是由于重试次数限制,可能网络情况不好,导致重试次数用完了,也没有启动成功。先启动journalnode,再启动dfs。原创 2025-05-21 17:06:37 · 463 阅读 · 0 评论 -
彻底搞明白YARN资源分配
Container是以什么形式运行的?是单独的JVM进程吗?是的,每一个Container就是一个单独的JVM进程。YARN的vcore和本机的CPU核数关系?没关系。默认都是手动在yarn-default.xml中配置的,默认每个NodeManager是8个vcore,所有的NodeManager上的vcore加在一起就是整个YARN所有的vcore。每个Container能够使用的物理内存和虚拟内存是多少?转载 2023-07-28 12:22:02 · 2929 阅读 · 0 评论 -
Hadoop的OutputFormat类
OutputFormat是一个用于描述MapReduce作业的输出格式和规范的抽象类,位于org.apache.Hadoop.mapreduce.OutputFormat. Mapreduce框架依靠文件输出格式完成输出规范检查(如检查目录是否存在),并为文件输出格式提供作业结果数据输出的功能,即提供RecordWriter的实现,输出文件被存储在文件系统FileSystem中。TextOutputFormat类 是默认的输出格式,它把每条记录写成文本行。原创 2023-06-20 21:46:36 · 629 阅读 · 0 评论 -
Hadoop笔记整理
Hadoop一. 引言1.1 什么是大数据大数据:(Big Data):数据量级很大的应用处理。TB级 ,日数据增长GB级K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值。1.2 大数据特点4V 是大数据典型的特点具体指的是:# 1.Volume (大量) 数据量很大,至少是TB或者日均增加GB级# 2.Variety (多样) a.结构化数据 :原创 2023-04-19 12:50:05 · 864 阅读 · 0 评论 -
yarn的常用命令
yarn常用命令:1.yarn application 查看任务(1)列出所有Applicationyarn application -list(2)根据 Application 状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)2.yarn logs 查看日志(1)查看Application 日志yarn logs原创 2023-01-05 00:30:09 · 9329 阅读 · 0 评论 -
MapReduce的经典入门案例
MapReduce的经典入门案例WordCount项目Java实现pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache原创 2021-09-18 20:38:31 · 873 阅读 · 0 评论