![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
༺❀ൢ 故渊 ❀ൢ༻
6年码龄,曾任职于新浪微博,58转转,专注于大数据,欢迎交流
展开
-
CannotObtainBlockLengthException问题分析
用户反馈MR任务失败,通过查看job的diagnose信息,发现如下异常另外需要交待一下背景,下午发生2个datanode机器同时宕机的问题,我们是有2副本的数据的,因此当2个datanode同时失效,一定会有一定比例的块丢失,在这两个datanode恢复一个之前,一定又有hdfs的客户端报错Missing Block。本文这个问题更加特殊,在这个任务失败前,2个宕机节点都已经恢复了,不存在missing block。所以这个情况给了我们一个非常重要的警示,即使不存在missing bloc原创 2020-11-11 15:54:38 · 595 阅读 · 0 评论 -
记一次hbase的TTL功能不生效问题
最近接手了一个的hbase和hadoop的小集群,被告知hbase有TTL不生效的问题(磁盘未释放),做个记录hbase版本1.2.7hdfs版本2.7.5问题描述:hbase中所有的表都配置了TTL,然而hdfs使用量依然不断增加,直至磁盘打满,datanode全挂。解决过程:1、在我负责接手这部分服务后,了解到之前伙伴的处理方式简直简单粗暴,每次出现问题,直接rm -rf datanode数据目录下的 BP-XXXXX目录。。。终于知道hdfs为什么会有9000+个corrupt原创 2020-06-30 13:30:09 · 1181 阅读 · 0 评论 -
新手如何管理好一个hadoop集群?
hadoop作为一门拥有很多年历史的技术,虽然公开资料很多,但对于企业生产环境到底怎样管理好一个hadoop集群资料还是很少的。从今天开始,笔者会将几年来hadoop在生产环境管理经验介绍给各位,希望可以帮助到大家。1、首先说使用哪个版本的hadoop,如果你碰巧有从0到1建设一家公司hadoop的机会的话,建议使用较新的版本,原因如下:hadoop是个一旦使用就会应用在很多台节点的服务,升级版本是重量级的操作;现实来说,99%的公司对于hadoop都没有什么深度定制能力,大概率你给你们ha..原创 2020-10-31 11:40:26 · 213 阅读 · 0 评论