问题解决_kiraraLou的博客-CSDN博客

问题解决

关注

文章平均质量分 65

关注数：文章数：26 文章阅读量：62506 文章收藏量：95

作者: kiraraLou

这个作者很懒，什么都没留下…

展开

【ranger】CDP环境更新 ranger 权限策略会发生低概率丢失权限策略的解决方法

服务在更新（添加） ranger 权限时，会有极低的概率导致 MM2 同步服务报错，报错内容。中看到我们的策略确实是已经配置，但是实际上落实到各个服务的策略缓存时发生了丢失。CM ->ranger-> 配置 -> 日志 -> INFO改为 DEBUG。查看修改配置后，ranger 的性能。但是查看 ranger 权限是赋予的，并且很早配置的权限策略也会报错。CM -> 集群 -> Ranger-> 配置 -> 搜索。1.集群 -> Ranger -> 配置 -> 搜索。就是存放我们实际的缓存策略的文件。

原创 2023-12-18 16:45:32 · 1270 阅读 · 1 评论
【CDP】CDP 集群通过Knox 访问Yarn Web UI，无法跳转到Flink Web UI 问题解决

记录下在CDP 环境中，通过Knox 访问Yarn Web UI，无法跳转到Flink Web UI 的BUG 解决方法。

原创 2023-12-12 16:28:57 · 434 阅读 · 0 评论
【knox】Gateway SSL Certificate is Expired. Server will not start

今天 KNOX 突然无法启动，报错日志与证书过期有关。

原创 2023-05-11 11:35:52 · 539 阅读 · 0 评论
【CDP】更改solr 存储路径导致ranger-audit 大量报错问题解决

我们生产上公司是使用的CDP集群，一次管理员通知，Solr 组件的数据存放路径磁盘空间不够。我们的solr 组件时为 Ranger 服务提供日志审计功能，在我们更改了磁盘路径，并重启了Solr 组件，然后发现相关组件，如HDFSKafka等会报相关的报错。

原创 2023-03-06 16:57:59 · 899 阅读 · 0 评论
【kerberos】org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN,

在用SUSE 操作系统安装 CM 大数据平台，在集群开启 kerberos 后，使用 HDFS 命令报错如下：环境信息SUSE Linux Enterprise Server 12 Service Pack 1 (SLES 12 SP5)仔细看，在使用 klist 命令时，有个他指向的路径是：而在执行命令时，有个他指向的路径是默认是去目录下找缓存。然后 SUSE 操作系统下并不是放在目录下，导致客户端认为你没有进行认证。所以报错。在中，我们增加了下面的参数以后

原创 2023-02-16 10:50:01 · 2107 阅读 · 0 评论
【kerberos】kinit: Credential cache directory “/run/user/0/krb5cc“ does not exist while getting

在用SUSE 操作系统安装 CM 大数据平台，在集群开启 kerberos 操作时报错，报错内容如下：环境信息SUSE Linux Enterprise Server 12 Service Pack 1 (SLES 12 SP5)看下报错的路径，如我这里是，，可能每个人不一样，替换成自己的。在重新执行，问题解决！

原创 2023-02-15 16:08:24 · 424 阅读 · 0 评论
【kafka】Connection to node -1) terminated during authentication. This may happen due to any of

最近在使用java消费kafka。

原创 2022-10-21 09:33:07 · 4800 阅读 · 0 评论
【CDP】Cloudera Manager 记录一次 Service Monitor 内存溢出/使用率高的问题及通用排查方案

通过了解 Servcie Monitor 具体的监控指标项，以及每个监控指标项对应的监控 Entity 的数量，来判断是那个监控指标项引起的Service monitor 内存使用率过高。开始的时候，没有过多考虑，只是增加了 JVM 的堆内存大小，但是过段时间有出现，从 16G -> 32G -> 64G，问题还是没有解决，看来必须更深的追一下了。找到监控实体数量最多的一项，问题大概就是由他引起的，可能每个人的情况不一样，这里只给一个通用的排查方向，具体的情况具体解决。滚动重启 Kafka 集群。

原创 2023-01-09 11:12:34 · 1755 阅读 · 0 评论
【Spark】Spark运行时产生的临时目录的问题

今日发现下游用户spark 任务在我们的大数据集群上的 client 节点 /tmp 目录下产生了60G大量的临时文件。触发监控告警。

原创 2022-12-14 14:38:53 · 3178 阅读 · 1 评论
【logrotate】logrotate 的使用简介及遇到的问题排查

配合dateext使用，紧跟在下一行出现，定义文件切割后的文件名，必须配合dateext使用。dateext 使用当期日期作为命名格式。

原创 2022-11-06 15:43:59 · 2314 阅读 · 0 评论
【Knox】CDP集群Knox服务集成LDAP，WEB UI登录正常，使用RestAPI无法正常访问401 Authentication failed 解决方式

这里很奇怪，我这里web ui 使用ldap的用户名、密码能够成功登录，但是用rest 接口访问就会报错。经过排查，发现web ui 界面的认证方式和rest api 的认证方式是两套。最近在使用Knox 服务集成 LDAP 后，在 Knox Web UI 界面中，使用Ldap 用户名、密码能够成功登录，但是在使用REST API 请求服务数据时，就会报。服务导致，rest-api 无法正常访问，具体什么原理目前还不是特别清楚，希望有知道的大佬，可以解释下。, 然后重启Knox 服务。

原创 2022-09-20 11:39:48 · 1054 阅读 · 0 评论
【spark】记录一次 spark sparkstreaming 使用命令行提交任务在Yarn集群模式无法正常消费kerberos kafka数据的问题

最近在提交spark程序到yarn消费kerberos认证方式的kafka数据。由于配置文件相对/绝对路径不正确配置遇到了报错，这里整理并记录一下。以上的问题，说白了就是在任务真正的执行节点，并没有成功从绝对路径中加载到对应的配置文件。因为别的节点并没有这些配置文件。所以需要用--flies将我们需要用到的配置都加载到yarn服务上，然后yarn来将这些配置问价分发到真正执行任务的目录上。所以我们用的一些参数中指定的配置也须写成相对路径。和。.........

原创 2022-08-18 17:20:05 · 4344 阅读 · 1 评论
【zookeeper】问题解决 Authentication is not valid : /hbase/tokenauth

最近在搭建Hbase服务时，服务无法启动，于是决定将hbase服务删除，在当删除zookeeper的/hbase节点时报错，报。看到网上大部分的文章都是使用跳过ACL或者开启super模式这两种方式，于是比较好奇有没有第三种解，这里整理并记录一下。SASL身份验证方案与某些其他方案的不同之处在于，如果方案是sasl，则命令无效。这是因为身份验证是在连接后立即使用启用SASL的令牌交换执行的，而不是像addauth那样在连接后的任何时间发生。相关链接httphttps。...

原创 2022-08-02 10:19:35 · 4486 阅读 · 0 评论
【Kafka】 Kafka 外网无法消费的问题

最近在学习，于是在阿里云搭建了服务。在阿里云服务器上使用命令行手动生产、消费都没什么问题，但是在使用代码消费时，却一直，无法消费。使用调试，控制台没有任何输出，仿佛卡住了一样。这里需要配置为外网的地址和端口，是暴露给外部的，如果没有设置，会用如：这里贴下相关的代码2. 代码问题解决！...

原创 2022-06-30 14:27:24 · 677 阅读 · 0 评论
【linux】网卡overruns报错问题原因及解决方案

环境信息：dx-hadoop57.dx：cpu：40c操作系统：ceontos6.7部署服务：DataNode、NodeManager、Impala服务。一、前言：之前发生过某台节点网卡报错，影响结果 presto任务失败、HDFS读取变慢、Yarn任务执行变慢。于是后续对net.if.total.errors这个指标统一加上了监控，过了一段时间后，在别的节点也收到了类似的报警。于是想到还是之前的错误，于是让OP同学帮忙重新切换了网卡，切换网卡后一段时间确实没有收到告警了。但是过段时间

原创 2021-09-29 13:18:46 · 4368 阅读 · 0 评论
【CDH】CDH5.16 配置 yarn 任务集中分配设置不生效问题

前言记录下 CDH 集群 yarn 服务任务集中分配配置不生效问题。环境信息CDH 5.16Hadoop 2.6.0yarn 为公平调度模式问题经过近日，系统运维反馈说我们的大数据集群有一个节点（nodemanager）内存使用率超过报警阈值，触发告警。排查后发现计算节点（nodemanager）与节点（nodemanager）的负载差距较大，当即就想到了是因为 Yarn 开启了批量分配导致的。加之由于我们的任务都是流式计算任务，单个任务需要用到的 container 数量不多。所以更

原创 2022-05-26 13:10:41 · 1077 阅读 · 0 评论
【kafka】CDP集群 kafka-ranger-audit-spool 日志太大问题排查

最近发现服务的审计目录假脱机日志过多，过大。这里整理并记录一下解决方案。服务日志过多。问题原因当为启用审计时，当写入失败时，审计日志数据会在本地磁盘上假脱机。我们的服务和服务的相关配置如下：那么为什么写入失败呢，通过查看上下文发现 ranger 没有写入文件的权限。CDP 环境解决如下： -> ->如果环境不为 CDP 环境：实际上就是创建服务对应的目录，并对目录赋予正确的权限，使得能够正常写入数据到即可。..............

原创 2022-06-13 16:13:14 · 756 阅读 · 0 评论
【zookeeper】Cannot open channel to x at election address...zookeeper 节点连接问题

最近在搭建服务，期间遇到一些报错，这里整理并记录下。日志报错内容：问题原因我这里遇到的原因是文件中有一行配置了回环i地址，即。所以导致通信失败。注释掉回环地址。还有其余的排查思路：问题解决！............

原创 2022-06-15 10:05:47 · 1126 阅读 · 1 评论
【HIVE】MetaException(message:Error(s) were found while auto-creating/validating the datastore for cla

问题原因：hive 元数据库信息有问题。解决方法：重新初始化元数据库。CDH集群初始化hive 元数据库参考如下：https://blog.csdn.net/Mrerlou/article/details/121157908

原创 2021-11-05 14:49:31 · 864 阅读 · 0 评论
【elasticsearch】elasticsearch ES磁盘分配不均问题及解决方法

一、前言：最近发现公司es集群磁盘分布的很不均匀，有个节点磁盘使用在36%，而另外两台的磁盘使用率在70%。这样带来的后果，随着时间的推移，如果另外两台的磁盘达到一定的阈值后，新创建的索引无法在这两台机器上被正确分配，导致集群出现有索引shard未分配的情况。并且集群状态为yellow。二、问题原因：查询es文档才发现，es自动均衡是按照分片数来分配的，并不是按照磁盘空间使用率来分配的。造成这种问题的原因：个别索引太大，并且设置的shard个数不合理。如上图一个单副本70G的索引，只

原创 2021-10-27 13:40:03 · 7056 阅读 · 1 评论
【springboot】class path resource [mybatis/mybatis-config.xml] cannot be opened because it does not ex

问题描述使用springboot 加载mybatis 配置文件，报错找不到该配置文件。报错内容：Caused by: java.io.FileNotFoundException: class path resource [mybatis/mybatis-config.xml] cannot be opened because it does not ex at org.springframework.core.io.ClassPathResource.getInputStream(ClassPa

原创 2021-10-12 15:00:08 · 11398 阅读 · 0 评论
【kibana】 kibana报错内存溢出 CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memory

一、前言：今天收到kibana服务告警。环境信息：es7,4kibana 7.4二、报错内容：<--- Last few GCs --->[2800:0x326ea90] 95392 ms: Mark-sweep 799.2 (1133.8) -> 799.2 (1085.3) MB, 150.5 / 0.0 ms (average mu = 0.710, current mu = 0.000) last resort GC in old space request

原创 2021-10-14 15:18:44 · 1573 阅读 · 0 评论
【elasticsearch】elasticsearch节点异常崩溃问题处理

一、前言：今天对es集群做扩容节点操作，新增了一台节点，启动节点后，没过15分钟，监控报警节点es服务端口异常。第一次看日志并没有发现太明显的错误，于是并没有做操作，直接将该节点重新启动。结果不到10分钟时间，节点又崩溃了，看来得排查下问题原因。二、环境信息：内存：128Gcpu： 40Ces版本：5.6.2节点只部署了es服务。es JVM配置信息:-Xms32g-Xmx32g-XX:+UseG1GC-XX:+ExplicitGCInvokesConcurrent-XX:

原创 2021-10-18 20:08:01 · 3480 阅读 · 0 评论
【hive】MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT‘ at lin

一、前言：最近线上CDH集群数据库崩溃，且无法恢复，影响范围Cloudera Manager服务无法使用，HIVE 元数据信息丢失，后续通过一系列手段进行了数据恢复。在重新安装Hive服务时，遇到了一些报错。环境信息：CDH：5.13Mysql：5.6二、报错内容：hive创建表表时报错如下：hive> create database test;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.

原创 2021-10-21 14:00:46 · 1084 阅读 · 0 评论
【hadoop】记录一次HDFS集群自动转移故障问题排查和解决方案

一、问题情况：今天早上收到报警，HDFS namenode 服务异常，发生了自动故障迁移。二、报错内容：2021-10-26 07:13:56,310 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Fina lizing edits file /home/hadoop/dfs/nn/current/edits_inprogress_0000000000824809456 -> /home/

原创 2021-10-26 14:37:14 · 802 阅读 · 0 评论
【hive】kerberos 环境下hive 创建 hbase 映射表报错 HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘

问题描述：使用hive 创建hive 与 hbase 的映射表时报错，说没有创建表的权限。报错内容：HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘解决方案：进入hbasehbase shell赋予用户权限grant 'hive','RWXCA'...

原创 2021-10-26 10:29:57 · 643 阅读 · 0 评论

问题解决

作者: kiraraLou

【ranger】CDP环境 更新 ranger 权限策略会发生低概率丢失权限策略的解决方法

【CDP】CDP 集群通过Knox 访问Yarn Web UI，无法跳转到Flink Web UI 问题解决

【knox】Gateway SSL Certificate is Expired. Server will not start

【CDP】更改solr 存储路径导致ranger-audit 大量报错问题解决

【kerberos】org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN,

【kerberos】kinit: Credential cache directory “/run/user/0/krb5cc“ does not exist while getting

【kafka】Connection to node -1) terminated during authentication. This may happen due to any of

【CDP】Cloudera Manager 记录一次 Service Monitor 内存溢出/使用率高的问题及通用排查方案

【Spark】Spark运行时产生的临时目录的问题

【logrotate】logrotate 的使用简介及遇到的问题排查

【Knox】CDP集群Knox服务集成LDAP，WEB UI登录正常，使用RestAPI无法正常访问401 Authentication failed 解决方式

【spark】记录一次 spark sparkstreaming 使用命令行提交任务在Yarn集群模式无法正常消费kerberos kafka数据的问题

【zookeeper】问题解决 Authentication is not valid : /hbase/tokenauth

【Kafka】 Kafka 外网无法消费的问题

【linux】网卡overruns报错问题原因及解决方案

【CDH】CDH5.16 配置 yarn 任务集中分配设置不生效问题

【kafka】CDP集群 kafka-ranger-audit-spool 日志太大问题排查

【zookeeper】Cannot open channel to x at election address...zookeeper 节点连接问题

【HIVE】MetaException(message:Error(s) were found while auto-creating/validating the datastore for cla

【elasticsearch】elasticsearch ES磁盘分配不均问题及解决方法

【springboot】class path resource [mybatis/mybatis-config.xml] cannot be opened because it does not ex

【kibana】 kibana报错内存溢出 CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memory

【elasticsearch】elasticsearch节点异常崩溃问题处理

【hive】MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT‘ at lin

【hadoop】记录一次HDFS集群自动转移故障问题排查和解决方案

【hive】kerberos 环境下hive 创建 hbase 映射表报错 HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘

【ranger】CDP环境更新 ranger 权限策略会发生低概率丢失权限策略的解决方法