hadoop
文章平均质量分 56
大数据玩家
致力于大数据源码研究、底层原理研究!
展开
-
利用fsimage分析HDFS小文件
在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128 MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。存储空间占用过多:在Hadoop生态系统中,每个小文件都将占用一定的存储空间,而且每个小文件也需要一个块来存储。如果存在大量的小文件,将浪费大量的存储空间。处理延迟:小文件数量过多,会引起大量IO操作,导致处理延迟。查询性能下降:小文件用于分区和表划分,可能导致查询延迟并降低查询性能。原创 2023-08-29 16:24:11 · 757 阅读 · 0 评论 -
HDFS文件删除后,HIVE元数据还存在的问题
即HDFS数据删除了,但是hive metastore元数据却没有更新,使用show partitions tablename 发现该分区还存在。手动在hdfs上删除了一个表的分区数据(inc_day=2023-08-30),当查询这个表这个分区的数据时报错文件不存在。原创 2023-08-30 11:42:28 · 1084 阅读 · 0 评论 -
YARN资源管理器(Resource Manager、Node Manager、Application Master 、Container)
HADOOP 1.0存在的问题HDFS1.0存在的问题:Namenode单点故障:集群的文件都是以“块(block)”的形式存储,并且为了容错,每个block有多个副本。namenode需要记录整个集群所有block及其副本的元数据信息(fsimage:文件目录结构,block和文件的映射关系等)和操作日志(edits),因此,在hadoop1.0框架中,namenode设计为单个节点,通...原创 2019-01-15 23:41:42 · 9701 阅读 · 0 评论 -
记一次hadoop.tmp.dir配置因重启机器导致无法启动
缘由 线上一直运行的hadopp集群,突然有一天服务器断电重启,集群正常启动,但是spark on yarn上的任务无法提交,报错一提交任务AM就被kill掉。解决方案步骤一 在$HADOOP_HOME/etc/hadoop中的core-site.xml有个 hadoop.tmp.dir 配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存...原创 2019-02-02 11:44:56 · 838 阅读 · 0 评论 -
Hadoop Yarn 的三种资源调度器详解
1、调度器的选择 在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。 FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。 F...原创 2019-01-22 23:18:02 · 851 阅读 · 0 评论 -
YARN方面的调优
1.使用好三种调度器 将任务分队列,不同的任务使用不同的队列 三种调度器详解:https://blog.csdn.net/qq_23160237/article/details/86585511 2.充分利用cpu和内存 yarn资源管理有虚拟核和虚拟内存的概念,可以将虚拟核、虚拟内存调整为物理机的两到三倍,增加任务数量...原创 2019-01-22 23:45:53 · 504 阅读 · 0 评论 -
MapReduce工作流程
工作流程 MapReduce启动的时候,最先启动的是MRAppMaster,MRAppMaster根据Job的描述信息,计算出Maptask的数量,申请相对应的Maptask进程。Maptask进程启动之后,根据指定的InputFormat来获取RecordReader读取数据,形成KV键值对,传递给map方法,对数据按一定的切分逻辑进行切分,结果输出到环形缓冲区中,环形缓冲区默...原创 2019-02-27 16:19:18 · 161 阅读 · 0 评论 -
面试-------hdfs文件上传与下载流程
文件上传1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在2、namenode返回是否可以上传3、client请求第一个 block该传输到哪些datanode服务器上4、namenode返回3个datanode服务器ABC5、client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,...原创 2019-02-28 23:37:20 · 270 阅读 · 0 评论 -
Hdfs的数据磁盘大小不均衡如何处理
最近在解决一个现在看起来很简单的问题。原创 2019-03-08 09:26:40 · 1127 阅读 · 0 评论