hadoop
文章平均质量分 69
首席撩妹指导官
大数据码农,欢迎小伙伴们一起研究探索。
展开
-
Hadoop参数汇总
默认实现是 org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback, 若是JNI有效,它将发挥做用,使用Hadoop的API去获取user的groups列表。在有些场景下,特别是对一些大的,而且不可能重用的数据,缓存在操做系统的缓存区是无用的。可使用8进制数字也可使用符号,例如:"022" (8进制,等同于以符号表示的u=rwx,g=r-x,o=r-x),或者"u=rwx,g=rwx,o="(符号法,等同于8进制的007)。原创 2023-03-01 21:46:44 · 673 阅读 · 1 评论 -
离线分析HDFS的FsImage查找集群小文件
统计中有两个重要参数parent_id和instr(path,'/',1,2)这两个参数主要表示指定统计的HDFS目录以及目录钻取深度,instr()函数中的最后一个参数即为目录钻取深度(如果为parent_id=1为根目录“/”,钻取深度则为2,即根目录下所有的数据目录,需要钻取根深的目录则依次递增)。如下统计方式主要基于Hive库和表的统计分析,统计Hive中所有库存的数据文件数、Block数量、文件总大小(bytes)及平均文件大小(bytes)。2.使用hdfs oiv命令解析FsImage文件。原创 2023-03-01 20:21:41 · 330 阅读 · 0 评论 -
Hadoop调优思路
HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为 150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用 NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。这里我们发现所有的文件块都是存储在 DISK,按照理论一个副本存储在 RAM_DISK,其他副本存储在 DISK 中,这是因为,我们还需要配置“dfs.datanode.max.locked.memory”,“dfs.block.size”参数。原创 2023-02-28 21:43:40 · 574 阅读 · 0 评论 -
两个namenode都是standby解决方法
问题分析:查看namenode日志发现没有active的namenode,都是standby状态,需要重新格式化zkfc,让他重新选举。pod里面执行hdfs zkfc -formatZK,退出pod,刷新页面。问题描述:两个namenode都是standby,不能变成active。原创 2023-02-01 11:53:28 · 270 阅读 · 0 评论