Hadoop
文章平均质量分 63
Samooyou
这个作者很懒,什么都没留下…
展开
-
HDFS-FSCK命令输出
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。hdfs fsck /data/test/cdh9 -list-corruptfileblockshdfs fsck /data/test/cdh9 -movehdfs fsck /data/test/cdh9 -deletehdfs fsck /data/test/cdh9 -openforwrite例:hdfs fsck /原创 2022-07-04 11:19:50 · 683 阅读 · 0 评论 -
大数据组件日志查看
yarn applicationyarn application -listyarn application -kill application_xxx_xxxyarn application -appStates finished -listyarn application -appStates ALL -list原创 2022-06-02 08:59:57 · 252 阅读 · 0 评论 -
小文件专项
Hive的小文件合并参数;Spark的小文件合并思路:采用社区 SPARK-24940 的方式处理,借助 SQL hint 的方式合并小文件。 INSERT ... SELECT/*+ COALESCE(numPartitions) */... INSERT ... SELECT/*+ REPARTITION(numPartitions) */... 增加自动合并小文件结果文件。用户侧:当 spark.sql.shuffle.partitions 设置比...原创 2022-05-26 20:16:28 · 318 阅读 · 0 评论 -
数据倾斜处理
数据倾斜----------------------数据倾斜的处理思路1. 数据倾斜产生原因做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。1.key分布不均匀2.建表时考虑不周关联字段的 数据规范不一致:①类型不一致 ②默认值不一致例:假设我们有两张表:user(用户信息原创 2021-10-23 20:35:36 · 2653 阅读 · 0 评论 -
hbase启动报错(连接不到zookeeper) master.HMaster: hbase:meta,,1.1588230740 is NOT online
日志报错:解决方法:清楚zookeeper上的 HBASE节点的信息即可原创 2021-10-14 16:09:05 · 1613 阅读 · 0 评论 -
DataNode 启动失败(ClusterID不一致):Initialization failed for Block pool
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode:Initialization failed for Block pool <registering> (Datanode Uuid 1098277a-8189-4b88-9a9b-31dbb7cdd27f) service to hadoop162/192.168.1.162:8020. Exiting.java.io.IOException: All specified di...原创 2021-10-14 15:23:17 · 2245 阅读 · 0 评论