问题解决
文章平均质量分 65
kiraraLou
这个作者很懒,什么都没留下…
展开
-
【ranger】CDP环境 更新 ranger 权限策略会发生低概率丢失权限策略的解决方法
服务在更新(添加) ranger 权限时,会有极低的概率导致 MM2 同步服务报错,报错内容。中看到我们的策略确实是已经配置,但是实际上落实到各个服务的策略缓存时发生了丢失。CM ->ranger-> 配置 -> 日志 -> INFO改为 DEBUG。查看修改配置后,ranger 的性能。但是查看 ranger 权限是赋予的,并且很早配置的权限策略也会报错。CM -> 集群 -> Ranger-> 配置 -> 搜索。1.集群 -> Ranger -> 配置 -> 搜索。就是存放我们实际的缓存策略的文件。原创 2023-12-18 16:45:32 · 1270 阅读 · 1 评论 -
【CDP】CDP 集群通过Knox 访问Yarn Web UI,无法跳转到Flink Web UI 问题解决
记录下在CDP 环境中,通过Knox 访问Yarn Web UI,无法跳转到Flink Web UI 的BUG 解决方法。原创 2023-12-12 16:28:57 · 434 阅读 · 0 评论 -
【knox】Gateway SSL Certificate is Expired. Server will not start
今天 KNOX 突然无法启动,报错日志与证书过期有关。原创 2023-05-11 11:35:52 · 539 阅读 · 0 评论 -
【CDP】更改solr 存储路径导致ranger-audit 大量报错问题解决
我们生产上公司是使用的CDP集群,一次管理员通知,Solr 组件的数据存放路径磁盘空间不够。我们的solr 组件时为 Ranger 服务提供日志审计功能,在我们更改了磁盘路径,并重启了Solr 组件,然后发现相关组件,如HDFSKafka等会报相关的报错。原创 2023-03-06 16:57:59 · 899 阅读 · 0 评论 -
【kerberos】org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN,
在用SUSE 操作系统安装 CM 大数据平台,在集群开启 kerberos 后,使用 HDFS 命令报错如下:环境信息SUSE Linux Enterprise Server 12 Service Pack 1 (SLES 12 SP5)仔细看,在使用 klist 命令时,有个 他指向的路径是: 而在执行 命令时,有个 他指向的路径是 默认是去 目录下找 缓存。然后 SUSE 操作系统下 并不是放在 目录下,导致 客户端认为你没有进行 认证。所以报错。在中,我们增加了下面的参数以后原创 2023-02-16 10:50:01 · 2107 阅读 · 0 评论 -
【kerberos】kinit: Credential cache directory “/run/user/0/krb5cc“ does not exist while getting
在用SUSE 操作系统安装 CM 大数据平台,在 集群开启 kerberos 操作时报错,报错内容如下:环境信息SUSE Linux Enterprise Server 12 Service Pack 1 (SLES 12 SP5)看下报错的路径,如我这里是,,可能每个人不一样,替换成自己的。在重新执行,问题解决!原创 2023-02-15 16:08:24 · 424 阅读 · 0 评论 -
【kafka】Connection to node -1) terminated during authentication. This may happen due to any of
最近在使用java消费kafka。原创 2022-10-21 09:33:07 · 4800 阅读 · 0 评论 -
【CDP】Cloudera Manager 记录一次 Service Monitor 内存溢出/使用率高的问题及通用排查方案
通过了解 Servcie Monitor 具体的监控指标项,以及每个监控指标项对应的监控 Entity 的数量,来判断是那个监控指标项引起的Service monitor 内存使用率过高。开始的时候,没有过多考虑,只是增加了 JVM 的堆内存大小,但是过段时间有出现,从 16G -> 32G -> 64G,问题还是没有解决,看来必须更深的追一下了。找到监控实体数量最多的一项,问题大概就是由他引起的,可能每个人的情况不一样,这里只给一个通用的排查方向,具体的情况具体解决。滚动重启 Kafka 集群。原创 2023-01-09 11:12:34 · 1755 阅读 · 0 评论 -
【Spark】Spark运行时产生的临时目录的问题
今日发现下游用户spark 任务在我们的大数据集群上的 client 节点 /tmp 目录下产生了60G大量的临时文件。触发监控告警。原创 2022-12-14 14:38:53 · 3178 阅读 · 1 评论 -
【logrotate】logrotate 的使用简介及遇到的问题排查
配合dateext使用,紧跟在下一行出现,定义文件切割后的文件名,必须配合dateext使用。dateext 使用当期日期作为命名格式。原创 2022-11-06 15:43:59 · 2314 阅读 · 0 评论 -
【Knox】CDP集群Knox服务集成LDAP,WEB UI登录正常,使用RestAPI无法正常访问401 Authentication failed 解决方式
这里很奇怪,我这里web ui 使用ldap的用户名、密码能够成功登录,但是用rest 接口访问就会报错。经过排查,发现web ui 界面的认证方式和rest api 的认证方式是两套。最近在使用Knox 服务集成 LDAP 后,在 Knox Web UI 界面中,使用Ldap 用户名、密码能够成功登录,但是在使用REST API 请求服务数据时,就会报。服务导致,rest-api 无法正常访问,具体什么原理目前还不是特别清楚,希望有知道的大佬,可以解释下。, 然后重启Knox 服务。原创 2022-09-20 11:39:48 · 1054 阅读 · 0 评论 -
【spark】记录一次 spark sparkstreaming 使用命令行提交任务在Yarn集群模式无法正常消费kerberos kafka数据的问题
最近在提交spark程序到yarn消费kerberos认证方式的kafka数据。由于配置文件 相对/绝对路径不正确配置遇到了报错,这里整理并记录一下。以上的问题,说白了就是在任务真正的执行节点,并没有成功从绝对路径中加载到对应的配置文件。因为别的节点并没有这些配置文件。所以需要用--flies将我们需要用到的配置都加载到yarn服务上,然后yarn来将这些配置问价分发到真正执行任务的目录上。所以我们用的一些参数中指定的配置也须写成相对路径。和。.........原创 2022-08-18 17:20:05 · 4344 阅读 · 1 评论 -
【zookeeper】问题解决 Authentication is not valid : /hbase/tokenauth
最近在搭建Hbase服务时,服务无法启动,于是决定将hbase服务删除,在当删除zookeeper的/hbase节点时报错,报。看到网上大部分的文章都是使用跳过ACL或者开启super模式这两种方式,于是比较好奇有没有第三种解,这里整理并记录一下。SASL身份验证方案与某些其他方案的不同之处在于,如果方案是sasl,则命令无效。这是因为身份验证是在连接后立即使用启用SASL的令牌交换执行的,而不是像addauth那样在连接后的任何时间发生。相关链接httphttps。...原创 2022-08-02 10:19:35 · 4486 阅读 · 0 评论 -
【Kafka】 Kafka 外网无法消费的问题
最近在学习,于是在阿里云搭建了服务。在阿里云服务器上使用命令行手动生产、消费都没什么问题,但是在使用代码消费时,却一直,无法消费。使用 调试,控制台没有任何输出,仿佛卡住了一样。这里需要配置为外网的地址和端口,是暴露给外部的,如果没有设置,会用如:这里贴下相关的代码2. 代码问题解决!...原创 2022-06-30 14:27:24 · 677 阅读 · 0 评论 -
【linux】网卡overruns报错问题原因及解决方案
环境信息:dx-hadoop57.dx:cpu:40c操作系统:ceontos6.7部署服务:DataNode、NodeManager、Impala服务。一、前言:之前发生过某台节点网卡报错,影响结果 presto任务失败、HDFS读取变慢、Yarn任务执行变慢。于是后续对net.if.total.errors这个指标统一加上了监控,过了一段时间后,在别的节点也收到了类似的报警。于是想到还是之前的错误,于是让OP同学帮忙重新切换了网卡,切换网卡后一段时间确实没有收到告警了。但是过段时间原创 2021-09-29 13:18:46 · 4368 阅读 · 0 评论 -
【CDH】CDH5.16 配置 yarn 任务集中分配设置不生效问题
前言记录下 CDH 集群 yarn 服务任务集中分配配置不生效问题。环境信息CDH 5.16Hadoop 2.6.0yarn 为公平调度模式问题经过近日,系统运维反馈说我们的大数据集群有一个节点(nodemanager)内存使用率超过报警阈值,触发告警。排查后发现计算节点(nodemanager)与节点(nodemanager)的负载差距较大,当即就想到了是因为 Yarn 开启了批量分配导致的。加之由于我们的任务都是流式计算任务,单个任务需要用到的 container 数量不多。所以更原创 2022-05-26 13:10:41 · 1077 阅读 · 0 评论 -
【kafka】CDP集群 kafka-ranger-audit-spool 日志太大问题排查
最近发现 服务 的 审计目录假脱机日志过多,过大。这里整理并记录一下解决方案。 服务 日志过多。问题原因当为 启用 审计时,当写入 失败时,审计日志数据会在本地磁盘上假脱机。我们的 服务和 服务的相关配置如下:那么为什么写入 失败呢,通过查看上下文发现 ranger 没有写入 文件的权限。CDP 环境解决如下: -> ->如果环境不为 CDP 环境:实际上就是创建 服务对应的 目录,并对 目录赋予正确的权限,使得 能够正常写入数据到 即可。..............原创 2022-06-13 16:13:14 · 756 阅读 · 0 评论 -
【zookeeper】Cannot open channel to x at election address...zookeeper 节点连接问题
最近在搭建 服务,期间遇到一些报错,这里整理并记录下。日志报错内容:问题原因我这里遇到的原因是 文件中有一行配置了回环i地址,即 。所以导致通信失败。注释掉回环地址。还有其余的排查思路:问题解决!............原创 2022-06-15 10:05:47 · 1126 阅读 · 1 评论 -
【HIVE】MetaException(message:Error(s) were found while auto-creating/validating the datastore for cla
问题原因:hive 元数据库信息有问题。解决方法:重新初始化元数据库。CDH集群初始化hive 元数据库 参考如下:https://blog.csdn.net/Mrerlou/article/details/121157908原创 2021-11-05 14:49:31 · 864 阅读 · 0 评论 -
【elasticsearch】elasticsearch ES磁盘分配不均问题及解决方法
一、前言:最近发现公司es集群磁盘分布的很不均匀,有个节点磁盘使用在36%,而另外两台的磁盘使用率在70%。这样带来的后果,随着时间的推移,如果另外两台的磁盘达到一定的阈值后,新创建的索引无法在这两台机器上被正确分配,导致集群出现有索引shard未分配的情况。并且集群状态为yellow。二、问题原因:查询es文档才发现,es自动均衡是按照分片数来分配的,并不是按照磁盘空间使用率来分配的。造成这种问题的原因:个别索引太大,并且设置的shard个数不合理。如上图一个单副本70G的索引,只原创 2021-10-27 13:40:03 · 7056 阅读 · 1 评论 -
【springboot】class path resource [mybatis/mybatis-config.xml] cannot be opened because it does not ex
问题描述使用springboot 加载mybatis 配置文件,报错找不到该配置文件。报错内容:Caused by: java.io.FileNotFoundException: class path resource [mybatis/mybatis-config.xml] cannot be opened because it does not ex at org.springframework.core.io.ClassPathResource.getInputStream(ClassPa原创 2021-10-12 15:00:08 · 11398 阅读 · 0 评论 -
【kibana】 kibana报错内存溢出 CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memory
一、前言:今天收到kibana服务告警。环境信息:es7,4kibana 7.4二、报错内容:<--- Last few GCs --->[2800:0x326ea90] 95392 ms: Mark-sweep 799.2 (1133.8) -> 799.2 (1085.3) MB, 150.5 / 0.0 ms (average mu = 0.710, current mu = 0.000) last resort GC in old space request原创 2021-10-14 15:18:44 · 1573 阅读 · 0 评论 -
【elasticsearch】elasticsearch节点异常崩溃问题处理
一、前言:今天对es集群做扩容节点操作,新增了一台节点,启动节点后,没过15分钟,监控报警节点es服务端口异常。 第一次看日志并没有发现太明显的错误,于是并没有做操作,直接将该节点重新启动。结果不到10分钟时间,节点又崩溃了,看来得排查下问题原因。二、环境信息:内存:128Gcpu: 40Ces版本:5.6.2节点只部署了es服务。es JVM配置信息:-Xms32g-Xmx32g-XX:+UseG1GC-XX:+ExplicitGCInvokesConcurrent-XX:原创 2021-10-18 20:08:01 · 3480 阅读 · 0 评论 -
【hive】MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT‘ at lin
一、前言:最近线上CDH集群数据库崩溃,且无法恢复,影响范围Cloudera Manager服务无法使用,HIVE 元数据信息丢失,后续通过一系列手段进行了数据恢复。在重新安装Hive服务时,遇到了一些报错。环境信息:CDH:5.13Mysql:5.6二、报错内容:hive创建表表时报错如下:hive> create database test;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.原创 2021-10-21 14:00:46 · 1084 阅读 · 0 评论 -
【hadoop】记录一次HDFS集群自动转移故障问题排查和解决方案
一、问题情况:今天早上收到报警,HDFS namenode 服务异常,发生了自动故障迁移。二、报错内容:2021-10-26 07:13:56,310 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Fina lizing edits file /home/hadoop/dfs/nn/current/edits_inprogress_0000000000824809456 -> /home/原创 2021-10-26 14:37:14 · 802 阅读 · 0 评论 -
【hive】kerberos 环境下hive 创建 hbase 映射表报错 HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘
问题描述:使用hive 创建hive 与 hbase 的映射表时报错,说没有创建表的权限。报错内容:HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘解决方案:进入hbasehbase shell赋予用户权限grant 'hive','RWXCA'...原创 2021-10-26 10:29:57 · 643 阅读 · 0 评论