自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 zookeeeper升级jar包重启后选主失败问题解决

问题描述:因为大数据集群zeekeeper扫描出安全漏洞,需要进行升级,进行jar包替换后,需要整体重启zookeeper服务,我们集群一共有三个zookeeperk,但是重启后因为选主失败zookeeper自定挂掉问题原因:跟zk的选主机制有关(集群中leader不存在的情况下进行leader选举)解决办法:最好是按照zk服务器上的配置文件zoo.cfg中的server顺序一台台重启zk,因为配置文件中zkserver在前面的zxid小,不是leader(zk选主规则,优先检查zxid,zxid

2021-04-20 17:55:58 295

原创 Hbase服务故障恢复后快速解决region负载不均衡的问题

此解决方案的适用场景:hbase故障前region平均的分布在所有的regionserver上面,故障发生后,HbaseMaster挂掉,部分或全部regionserver挂掉,当hbase个组件都恢复后,会发现大量的region是在少数regionserver上,如果你集群开启了region自动均衡,需要等待特别长的时间,特别是hbase集群规模很大时,比如我们一个项目的hbase集群有200个regionserver,region数目达到了10W+,如果要等hbase自己让region负载均衡,需要

2021-04-12 22:16:46 2049

原创 HBase表映射并创建为Hive外表失败

问题描述21/04/02 12:42:22 INFO : Starting task [Stage-0:DDL] in serial mode21/04/02 12:42:22 ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive

2021-04-06 21:13:19 1039 1

原创 yarn的一个nodemanager在ambari上触发了告警nodemanager returned an unexpected status of “False“

问题描述:yarn的一个nodemanager再ambari上触发了告警nodemanager returned an unexpected status of "False",如下图所示,但是后台进程正常打开yarn页面观察nodemanger状态,node state显示UNHEALTHY, Health-report显示local-dirs are bad原因分析:故障的nodemanger local-dirs所在数据盘容量超过90%导致,因为在yarn-site.xml有如..

2021-04-02 12:11:54 501

原创 yarn的原生web页面加载数据显示历史job列表缓慢

问题描述:yarn的原生web页面加载数据显示历史job列表缓慢问题原因:这是由于yarn提交的历史任务数量太大(接近1w)导致解决方法方法一:在网上看到有人说有相关的配置,去官网上找了一下,应该是这个yarn的timeline时序数据库有关的配置,截图如下这两个参数的翻译一下分别是:时间轴存储区中最近读取的实体开始时间的缓存大小(以实体数为单位)默认为10000时间线存储区中最近写入的实体开始时间的缓存大小(以实体数为单位)默认为10000这里的实体entity应该就是job官网配

2021-03-31 23:47:56 700

原创 sparkstreaming实时程序正常运行五六个小时后会报错

问题描述:sparkstreaming实时程序可以正常运行,运行五六个小时后会报错,手动记录偏移量到hbase中,所以重启之后是从停止时的偏移量开始读取,程序重启之后能正常运行,但运行几个小时之后又会报错。问题定位过程:首先根据rpc超时的程序报错修改加大了spark.network.timeout参数,同时也怀疑是hbase的连接数过大造成,但是最终确定不是这个原因,到这一步,程序可以运行12个小时了,但是最终又报错,报错信息是内存溢出,截图如下:针对上面的问题,调整了spark.execu

2021-03-29 23:38:55 427 1

原创 修改监听namenode8020端口的ip地址

问题描述:一个客户因为他们集群网络环境的变化,要求他们集群把hdfs的namenode监听8020端口的特定IP改为0.0.0.0,在官网上查到了这个方法,具体风险未知,先在我们测试集群上搞了一下,发现hdfs没有受到影响,客户那边实施变更后也一切正常,证明这个方法可用,分享出来!解决办法:1.hdfs组件namenode进入安全模式。执行命令:hdfs dfsadmin -safemode enter2.保存现有namenode日志信息,执行命令:hdfs dfsadmin -save

2021-03-29 23:14:09 1374 1

原创 Namenode在每个整点出现RPC延迟告警故障排查

问题描述:Namenode在每个整点都出现RPC延迟告警,告警期间Hadoop命令无返回结果。beeline连接不上hive,持续时间约5分钟左右问题定位步骤及原因:首先通过监控数据查看集群rpc队列等待时间和处理时间 2.统计audit日志看看rpc请求每秒的qps 3. 在hdfs审计日志目录下,执行这个命令 grep"cmd=contentSummary"hdfs-audit.log*|grep"src=/p...

2021-03-29 22:56:49 2273 1

原创 Flume占用CUP过高问题解决

问题描述大数据集群服务器收到告警cup使用率超过了90%分析过程通过top命令进行查看,发现是flume占用了很高的cup,随即使用jstack定位到是org.apache.flume.sink.kafka.process()的问题,看这个进程名,猜想是不是flume本身的bug,通过查询,果然原来1.6版本flume的问题,但是这个已经在1.7版本里面解决了,具体可参考https://g...

2020-05-03 01:10:40 1326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除