![](https://img-blog.csdnimg.cn/20200428085417309.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop系列
文章平均质量分 80
Apache Hadoop 深入浅出
Michealkz
这个作者很懒,什么都没留下…
展开
-
HDFS Block 损坏解决方案
背景描述:机房断电重启后发现HDFS服务不正常发现步骤:检查HDFS文件系统健康 通过命令的方式查看或者web ui 信息进行查看hdfs fsck /检查对应哪些Block发生了损坏(显示具体的块信息和文件路径信息)hdfs fsck -list-corruptfileblocks数据处理流程:MySQL-----> Hadoop,解决方式只需要重新同步一份该表的数据即可深层次的思考:如何获取文件块的具体信息?1个文件对应多个块,每个块分布在不同的机器上面?原创 2021-03-06 13:15:40 · 1633 阅读 · 2 评论 -
Yarn 报错 Error in handling event type NODE_UPDATE to the Event Dispatcher
报错完整信息如下:2020-10-14 15:31:00,068 INFO org.apache.hadoop.yarn.server.resourcemanager.scheduler.common.fica.FiCaSchedulerNode: Assigned container container_1602660632708_0001_01_000055 of capacity <memory:1024, vCores:1> on host hddatanode02:8041, whi原创 2020-10-15 11:44:15 · 1134 阅读 · 2 评论 -
Operation category READ is not supported in state standby 故障问题
意思是:该主机状态为待机,不支持操作类别READ.出错的是hadoop的hdfs。你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls /自定义的是nn1还是namenode1等自定义名可以在配置文件hdfs-site.xml中查看: <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value>原创 2020-07-11 10:48:28 · 6619 阅读 · 2 评论 -
ssh 故障之启动集群需要输入密码
在工作过程中启动集群的时候发现,每次启动hadoop相关组件的时候,比如NameNode、SecondaryNameNode、DataNode的时候都需要输入hadoop用户的用户密码,由于在此期间安装了LZO压缩,这使得ssh的一些东西发生了变化。故障解决:1.首先ssh localhost 看看是否可以正常登陆,此时发现需要输入密码才可以2.尝试重新生成ssh,使用ssh-keygen...原创 2020-04-11 15:55:31 · 803 阅读 · 2 评论 -
Hadoop 中xsync集群分发脚本
大数据集群中使用xsync脚本分发文件到集群中的所有机器原创 2019-10-22 14:15:58 · 2087 阅读 · 1 评论 -
dfs.namenode.handler.count配置参数的总要性
这篇文章的故障,虽然用分批启动DN节点的方法,避免了重启HDFS的出现的内存问题。但是治标不治本,风险依然是存在的。所以要从根本上根治这个疑难杂症,就要从其他参数配置着手。最终,锁定一个参数配置dfs.namenode.handler.count。先来看看它的解释NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同Da...转载 2019-10-21 21:29:49 · 5601 阅读 · 3 评论 -
hadoop中使用 jps的正确姿势
Hadoop 的 jps 命令jps的主要功能是查看java接口的进程号jps(Java Virtual Machine Process Status Tool) 是JDK 提供给我们的一个查看当前所有java进程PID的命令,缺点是只支持当前用户的Java进程,要显示其他用户还是只能够 用ps命令1.jps命令类似于Linux的ps命令 ,直接运行jps命令,显示的是java程序的进程I...原创 2019-09-10 10:51:58 · 10405 阅读 · 0 评论 -
Yarn的架构及执行流程
Yarn的架构如下所示:Yarn主要由ResourceManager、NodeManager、ApplicationMaster、和Container组成。ResourceManager的作用如下:1.处理客户端的请求2.监控NodeManager3.启动或监控ApplicationMaster4.资源分配与调度NodeManager的作用如下:1.管理单个节点上的资源2....原创 2019-08-10 16:03:49 · 3490 阅读 · 0 评论 -
Hadoop 中 FileInputFormat 切片机制 源码分析
FileInputFormat 切片机制源码分析:FileInputFormat类中的getSplits()方法 .原创 2019-08-08 14:06:08 · 336 阅读 · 0 评论 -
HDFS文件读取和文件写入
HDFS的文件写入和文件读取过程详解文件写入过程:详细步骤解析:client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;client请求第一个block该传输到哪些DataNode服务器上;NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A...原创 2019-07-02 20:05:22 · 1750 阅读 · 0 评论 -
HDFS元数据信息FSimage和Edits以及SecondaryNameNode辅助管理元数据信息
元数据:讲的通俗点就是描述数据的数据在hadoop2.x当中,使用如下的架构的时候:所有的元数据信息都保存在了FsImage与Eidts文件当中,这两个文件就记录了所有的数据的元数据信息,元数据信息的保存目录配置在了hdfs-site.xml当中:<property> <name>dfs.namenode.name.dir</n...原创 2019-07-01 21:24:59 · 574 阅读 · 0 评论 -
Linux 中hadoop集群 时间 同步
在我们平常搭建大数据集群的时候,很重要的一点就是进行集群时钟的同步这里小编介绍两种集群时钟同步的方式供大家借鉴:第一种方式:通过网络进行时钟同步这种方式是通过网络连接外网进行时钟同步,必须要保证虚拟机连接上外网才可以。ntpdate us.pool.ntp.org;也可以和阿里云的时钟同步服务器进行同步时间ntpdate ntp4.aliyun.com我们集群的机器...原创 2019-06-15 16:01:18 · 833 阅读 · 0 评论 -
Hadoop 配置LZO 压缩
1.前置要求编译安装好hadoopjava & maven 安装配置好安装前置库 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool2.安装 lzo2.1 下载#下载wget www.oberhumer.com/opensource/lzo/download/lzo-2....转载 2020-04-11 16:52:35 · 582 阅读 · 0 评论