自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

jingyi1219的博客

原创 zookeeeper升级jar包重启后选主失败问题解决

问题描述：因为大数据集群zeekeeper扫描出安全漏洞，需要进行升级，进行jar包替换后，需要整体重启zookeeper服务，我们集群一共有三个zookeeperk，但是重启后因为选主失败zookeeper自定挂掉问题原因：跟zk的选主机制有关（集群中leader不存在的情况下进行leader选举）解决办法：最好是按照zk服务器上的配置文件zoo.cfg中的server顺序一台台重启zk，因为配置文件中zkserver在前面的zxid小，不是leader（zk选主规则，优先检查zxid，zxid

2021-04-20 17:55:58 394

原创 Hbase服务故障恢复后快速解决region负载不均衡的问题

此解决方案的适用场景：hbase故障前region平均的分布在所有的regionserver上面，故障发生后，HbaseMaster挂掉，部分或全部regionserver挂掉，当hbase个组件都恢复后，会发现大量的region是在少数regionserver上，如果你集群开启了region自动均衡，需要等待特别长的时间，特别是hbase集群规模很大时，比如我们一个项目的hbase集群有200个regionserver，region数目达到了10W+，如果要等hbase自己让region负载均衡，需要

2021-04-12 22:16:46 2508

原创 HBase表映射并创建为Hive外表失败

问题描述21/04/02 12:42:22 INFO : Starting task [Stage-0:DDL] in serial mode21/04/02 12:42:22 ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive

2021-04-06 21:13:19 1302 1

原创 yarn的一个nodemanager在ambari上触发了告警nodemanager returned an unexpected status of “False“

问题描述：yarn的一个nodemanager再ambari上触发了告警nodemanager returned an unexpected status of "False"，如下图所示，但是后台进程正常打开yarn页面观察nodemanger状态，node state显示UNHEALTHY, Health-report显示local-dirs are bad原因分析：故障的nodemanger local-dirs所在数据盘容量超过90%导致，因为在yarn-site.xml有如..

2021-04-02 12:11:54 669

原创 yarn的原生web页面加载数据显示历史job列表缓慢

问题描述：yarn的原生web页面加载数据显示历史job列表缓慢问题原因：这是由于yarn提交的历史任务数量太大（接近1w）导致解决方法方法一：在网上看到有人说有相关的配置，去官网上找了一下，应该是这个yarn的timeline时序数据库有关的配置，截图如下这两个参数的翻译一下分别是：时间轴存储区中最近读取的实体开始时间的缓存大小（以实体数为单位）默认为10000时间线存储区中最近写入的实体开始时间的缓存大小（以实体数为单位）默认为10000这里的实体entity应该就是job官网配

2021-03-31 23:47:56 879

原创 sparkstreaming实时程序正常运行五六个小时后会报错

问题描述：sparkstreaming实时程序可以正常运行，运行五六个小时后会报错，手动记录偏移量到hbase中，所以重启之后是从停止时的偏移量开始读取，程序重启之后能正常运行，但运行几个小时之后又会报错。问题定位过程：首先根据rpc超时的程序报错修改加大了spark.network.timeout参数，同时也怀疑是hbase的连接数过大造成，但是最终确定不是这个原因，到这一步，程序可以运行12个小时了，但是最终又报错，报错信息是内存溢出，截图如下：针对上面的问题，调整了spark.execu

2021-03-29 23:38:55 532 1

原创修改监听namenode8020端口的ip地址

问题描述：一个客户因为他们集群网络环境的变化，要求他们集群把hdfs的namenode监听8020端口的特定IP改为0.0.0.0,在官网上查到了这个方法，具体风险未知，先在我们测试集群上搞了一下，发现hdfs没有受到影响，客户那边实施变更后也一切正常，证明这个方法可用，分享出来！解决办法：1.hdfs组件namenode进入安全模式。执行命令：hdfs dfsadmin -safemode enter2.保存现有namenode日志信息，执行命令：hdfs dfsadmin -save

2021-03-29 23:14:09 1598 1

原创 Namenode在每个整点出现RPC延迟告警故障排查

问题描述：Namenode在每个整点都出现RPC延迟告警，告警期间Hadoop命令无返回结果。beeline连接不上hive，持续时间约5分钟左右问题定位步骤及原因：首先通过监控数据查看集群rpc队列等待时间和处理时间 2.统计audit日志看看rpc请求每秒的qps 3. 在hdfs审计日志目录下，执行这个命令 grep"cmd=contentSummary"hdfs-audit.log*|grep"src=/p...

2021-03-29 22:56:49 2649 1

原创 Flume占用CUP过高问题解决

问题描述大数据集群服务器收到告警cup使用率超过了90%分析过程通过top命令进行查看，发现是flume占用了很高的cup，随即使用jstack定位到是org.apache.flume.sink.kafka.process()的问题，看这个进程名，猜想是不是flume本身的bug，通过查询，果然原来1.6版本flume的问题，但是这个已经在1.7版本里面解决了，具体可参考https://g...

2020-05-03 01:10:40 1504

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除