hdfs
文章平均质量分 97
大数据老司机
专注于大数据智能运维和大数据开发领域优质创作者
展开
-
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128 MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。存储空间占用过多:在Hadoop生态系统中,每个小文件都将占用一定的存储空间,而且每个小文件也需要一个块来存储。如果存在大量的小文件,将浪费大量的存储空间。处理延迟:小文件数量过多,会引起大量IO操作,导致处理延迟。查询性能下降:小文件用于分区和表划分,可能导致查询延迟并降低查询性能。原创 2023-05-10 22:25:47 · 701 阅读 · 0 评论 -
大数据Hadoop之——HDFS小文件问题与处理实战操作
HDFS中文件上传会经常有小文件的问题,每个块大小会有150字节的大小的元数据存储namenode中,如果过多的小文件每个小文件都没有到达设定的块大小,都会有对应的150字节的元数据,这对namenode资源浪费很严重,同时对数据处理也会增加读取时间。HDFS中分块可以减少后续中MapReduce程序执行时等待文件的读取时间,HDFS支持大文件存储,如果文件过大10G不分块在读取时处理数据时就会大量的将时间耗费在读取文件中,分块可以配合MapReduce程序的切片操作,减少程序的等待时间。原创 2022-08-21 19:00:00 · 2821 阅读 · 0 评论 -
大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作
hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM)原创 2022-08-21 07:30:00 · 2864 阅读 · 2 评论 -
大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)
文章目录一、概述HDFS的设计特点二、HDFS组成1)Client2)NameNode(NN)3)DataNode(DN)4)Secondary NameNode(2NN)三、HDFS具体工作原理1)两个核心的数据结构: Fslmage和EditLog2)工作流程3)HDFS读文件流程4)HDFS文件写入流程四、安装Hadoop(HDFS+Yarn)1)环境准备2)下载最新的Hadoop安装包3)进行服务器及Hadoop的初始化配置五、helm3安装HDFS1)前期准备2)创建命名空间&拉包3)创建原创 2021-12-14 18:11:58 · 5017 阅读 · 1 评论