Mumunu--CSDN博客

原创 CentOs6 Yum 源失效 404

今天下午想装点东西。。突然发现所有的6 yum源都失效了YumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid..

2020-12-03 16:17:36 16127 52

原创 K8S运维中遇到的问题

出现这种情况是kube-controller-manager.yaml和kube-scheduler.yaml设置的默认端口是0，在文件中注释掉就可以了。（每台master节点都要执行操作）1.修改每台 master 节点kube-scheduler.yaml文件。然后systemctl restart kubelet.service。kube-controller-manager 同理。

2024-05-20 11:13:25 219 1

原创使用CDH的api接口对cdh服务进行滚动重启

因为企业版的licence的过期了。无法在界面上滚动重启。写了个py脚本实现此功能。

2024-01-22 16:54:02 556

原创 kibana8.10.4简单使用

点击stack management 选择kibana里的数据视图，右上角创建数据视图，输入名称。在Management下面的stack management ，安全子菜单有用户和角色点击角色。然后在策略的右边选择你要连接到的模板，使这个策略连接到模板所对应的index。点击右上角的显示保留角色，不显示那些保留角色。选择数据中的索引管理，选择索引模板点击创建模板。选择删除阶段，右边选择多久之前的会移动到删除阶段。选择工作区，有就选，没有就默认，选择权限。输入你要定义的索引的行为，比如。

2023-11-17 17:12:59 881

原创 Elastic stack8.10.4搭建、启用安全认证，启用https，TLS，SSL 安全配置详解

ELK大家应该很了解了，废话不多说开始部署kafka在其中作为消息队列解耦和让logstash高可用kafka和zk 的安装可以参考这篇文章。

2023-11-14 16:17:20 3531 7

原创深入理解Kafka3.6.0的核心概念，搭建与使用

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，kafka部署包“kafka_2.13-3.6.0”前面的2.13就是scala的版本。

2023-11-13 16:33:52 2199

原创 Centos 7rc.local脚本命令开机不执行及指定用户启动的方法

注意此处，是/etc/rc.d/rc.local，而不是/etc/rc.local，如果给/etc/rc.local执行权限是无效的，因为/etc/rc.local是软链接，真正的文件是/etc/rc.d/rc.local。注意：编辑完rc.local文件后，一定要给rc.local文件执行权限，否则开机时不会执行rc.local文件中脚本命令。配置在/etc/rc.local文件中。注意：指定用户执行的脚本（程序）目录，该用户必须有管理该脚本（程序）目录（文件）的权限。

2023-11-13 10:35:18 1973

原创 atlas运维中遇到的问题

包中的core包，其中有Link类，所以调用脚本导入数据时会报以下错误。类，而Atlas以HBase作为元数据存储，HBase本身使用的为。解决方式：编译前修改次级pom。

2023-10-16 17:31:46 432

原创搭建Atlas2.2.0 集成CDH6.3.2 生产环境+kerberos

首先确保环境的干净，如果之前有安装过清理掉相关残留确保安装atlas的服务器有足够的内存（至少16G），有必要的hadoop角色准备编译环境mvn3.8.8 必须3.8以上的版本 3.6无法编译java 1.8.0_181 跟你的CDH环境保持一致下载和解压缩源代码该项目的网站可以在这里找到查找并下载 Apache Atlas更改pom.xml在主pom（就是文件夹打开第一个）添加一个包含 maven 工件的 clouder 存储库然后修改对应的cdh组件版本然后修改一些jar包的版本。

2023-10-16 17:27:30 788

原创元数据管理平台Datahub0.10.5版本安装部署与导入各种元数据手册

官网文档连接本文所选择的Python的版本为3.8.16，Docker版本为20.10.0，Datahub为0.10.5版本python必须为3.7以上的版本。0.10.5不支持以下的版本。

2023-09-14 11:29:43 826

原创 python报错：ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1

如果你已经安装了新版本的OpenSSL，并且希望指定Python解释器链接到该新版本的OpenSSL，而不重新编译Python，可以通过设置环境变量LD_LIBRARY_PATH（Linux）或DYLD_LIBRARY_PATH（macOS），将新版本的OpenSSL库路径添加到Python解释器的运行环境中。如果你已经确认系统中的OpenSSL显示为新版本，但Python仍然使用旧版本，可能是因为Python解释器没有正确链接到新版本的OpenSSL。这可以确保Python使用新版本的OpenSSL库。

2023-09-08 11:44:47 3424

原创 Hbase2 基于hdfs恢复数据及迁移

多个命名空间，建议多次执行。hbase hbck -j /root/hbase-operator-tools-1.2.0/hbase-hbck2/hbase-hbck2-1.2.0.jar assigns -i /root/0903rit //这里是引用的文件，可以选择单个rit。hdfs dfs -mv /hbase/data_1 /hbase/data //重命名回去，可以根据实际情况，仅复制部分数据。hdfs dfs -mv /hbase/data /hbase/data_1 //重命名。

2023-07-13 16:34:10 1519

原创 impala远程连接失败排查

周一开发反馈在本地电脑上连接impala失败，怀疑是服务问题。测试后发现服务正常，故障也恢复了，就没追究，第二天又出现相似的故障。网络负载也不是很高，搁置了一会之后再次恢复正常。所以登录失败也没管，定时任务挂了就挂在那。于是在本地测试，发现确实连不上了，但是之前密码是正确的，手动登陆了一下kerberos账户。应该就是这里刷的密码错误次数，就是这个172.20.15.163搞的。getprinc 用户名，查看用户数据密码错误次数是否超过5次，如果是，证明账户被锁。这个报错是账户被锁的。

2023-06-26 15:50:03 954

原创 impala 查询资源消耗计算

有不对的请大佬们指出。Number of backeds：查询所使用的实例数。首先去到cdh 的impala查询页面。每个节点的内存使用峰值：乘以实例数就是本次查询使用的内存。HDFS扫描仪平均读取吞吐量： hdfs的io速度。CPU使用量应该是线程：CPU时间除以持续时间。持续时间：字面意思查询的持续时间。读取的HDFS字节数：字面意思。

2023-06-16 15:43:06 309

原创 hive任务reduce步骤卡在99%原因及解决

我们在写sql的时候经常发现读取数据不多，但是代码运行时间异常长的情况，这通常是发生了数据倾斜现象。数据倾斜现象本质上是因为数据中的key分布不均匀，大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，从而拉慢了整个计算过程速度。本文将介绍如何通过日志分析，判断数据中的哪个key分布不均，从而导致了数据倾斜问题。

2023-06-01 11:48:24 2901

原创原生apache hadoop3.3.1集群安装配置Kerberos

安装kerberos可以看一下我另外一篇。下面直接开始配置hadoop部署好了kerberos之后，首先添加用户和生成认证文件在KDC中添加需要认证的用户具体用户看情况而定(hadoop集群主要由hdfs管理，所以除了建hdfs账户还有HTTP账户，另外还有hive、hbase、dwetl也会访问hadoop集群。如有别的用户可用这种方式另行添加，如下图：格式为：用户名/主机hostname@HADOOP.COM。

2023-05-25 18:09:33 1442

原创 hbase查询报错unable to find region for

首先需要安装hbck工具自带那个只能看不能操作，hbase2已经废弃了hbck这个组件，HBCK2已经被剥离出HBase成为了一个单独的项目，如果你想要使用这个工具，需要根据自己HBase的版本，编译源码。打包完成后，是有多个jar包的，将自己需要的hbck2取出来hbase-operator-tools/hbase-hbck2/target/hbase-hbck2-1.0.0-SNAPSHOT.jar。但是因为没有hole了决定再次get测试一下，果断的返回了一个正常找不到rowkey的空返回。

2023-05-06 17:14:18 764

原创如何对HDFS进行节点内(磁盘间)数据平衡

特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。2.使用系统的hdfs.keytab进行认证，一般在/var/run/cloudera-scm-agent/process/1952-hdfs-JOURNALNODE 目录下等，或者自己生成，首选CDH系统自动生成的keytab，自己生成的不一定能用。2.挂载数据盘的磁盘间数据不均衡。

2023-04-19 14:51:51 1626

原创 BUILD FAILURE - conjars.org: Connection timed out

看官网老的地址废弃了应该。在setting.xml。

2023-04-11 16:39:32 726 3

原创 ES5节点假死，内核日志报INFO: task blocked for more than 120 seconds.

es集群里有一台机器，突然cpu load飙到 21左右（8core cpu），但是cpu使用率会变成0，且同时io 等使用率全部变为0.这种状态不可以自己恢复，除非重启。es没有判断出节点有问题，整个集群不可以访问，所有操作都超时，包括cat集群信息等接口，直到重启机器。这种情况下节点已经死了，但是节点还能够响应其master发出的transport ping消息，master不会将其从集群摘除。网上搜索一下资料，有两种场景。看一下关闭NUMA是否能解决你的问题，如果不行的化，再考虑是否是xfs的问题。

2023-03-09 15:50:22 2103 2

原创各种es语句

尽量在kibana里查询。命令行curl 不是很方便。查询所有不存在某个字段名称的数据。查询所有存在某个字段名称的数据。

2023-03-03 17:20:18 238

原创使用logstash迁移es数据

【代码】使用logstash迁移es数据。

2023-03-03 11:34:36 1146

原创 flink-sql-1.15.4配置hive catalog和hbase基于CDH6.3.2和kerberos

使用flink源码重新编译生成flink-sql-connector-hive-2.2.0_2.11，编译之前需要修改flink-sql-connector-hive-2.2.0中的pom文件，将hive-exec的版本改成2.1.1-cdh6.3.2。位置在flink-connectors/flink-sql-connector-hive-2.2.0/flink-sql-connector-hive-2.2.0_2.12-1.15.3.jar。有大佬能解决望赐教。java 我的版本和cdh使用的一致。

2023-02-02 15:56:23 1282 3

原创 kerberos环境下parcel方式部署flink1.15.3 基于CDH6.3.2 Flink on Yarn

使用时先启动yarn-session，然后再提交job，每次提交job，也都会分配一个JobManager。Application模式：简答的说就是直接run job，每次提交的任务Yarn都会分配一个JobManager，执行完之后整个资源会释放，包括JobManager和TaskManager。如果没有看到flink的组件，可以通过重启一下cdh，我之前就试过，flink分配、激活成功后，没有看见flink组件的图标，可以通过重启CDH服务，Session模式适合比较小的任务、执行时间比较短的任务。

2023-01-31 15:03:24 1861

原创 CDH6.3生产环境中禁用Kerberos

修改了网上相关文档的一些缺陷，在生产环境中实际使用过通过CM停止集群的所有服务服务停止成功修改Zookeeper的enableSecurity为false（取消勾选）将这项配置取消勾选修改HDFS配置修改Hadoop的安全身份验证第一个选为simple，第二个取消勾选修改DataNode的数据目录权限为755改DataNode服务的端口号，分别修改为50010和50075进入HBase服务修改配置修改HBase的身份验证第一个修改为simple，第二个取消勾选，第三个修改为none4。

2023-01-16 17:39:40 1092

原创 kerberos环境下Flink on Yarn集群部署基于flink1.15.3 hadoop 3.0CDH6.3.2

Flink on Yarn的HA高可用模式，首先依赖于Yarn自身的高可用机制（ResourceManager高可用），并通过Yarn对JobManager进行管理，当JobManager失效时，Yarn将重新启动JobManager。

2022-12-09 15:15:47 2157 4

原创 centos7 服务器查看硬盘是SSD还是HDD

我们可以看到硬盘的参数。这可以可以看到硬盘参数，然后搜索看看磁盘到底是什么就知道了。

2022-11-22 17:39:28 3304

原创 Elasticsearch GC优化实践

近期业务查询线上ES集群出现频繁超时告警，尤其是早晨某个时间点固定的报一波超时，从调用链监控上很难看出是什么业务行为导致的。

2022-11-22 15:46:56 1814

原创安装高可用free IPA+CDH6.3.2结合+日常操作

云主机默认不开启IPv6，根据提示，需要在 lo 接口启用IPv6，编辑/etc/sysctl.conf文件，调整或增加：不然会报下面的错误。访问web之前记得在访问机上面的hosts配一下解析然后用你的server主机名进行访问。可能会弹好几次输入账号密码，不知道是什么东西多点击几次取消即可，没用的选择。主机名之类的应该在cdh安装的时候就配好了不再赘述。在网卡配置文件里添加一下freeipa的地址。首先修改一下kerberos的配置文件。在这里输入你配置的账密。在所有客户端服务上运行。

2022-11-18 17:34:30 1592

原创 Elasticsearch7.17.5 集群安装部署和部署账密

修改 /etc/security/limits.d/20-nproc.conf。废话不多说 es应该查这文章的都了解，分发节点之类的简单操作就默认大家都会了。修改 /etc/security/limits.conf。重启一下服务器，刷新一下配置。修改/etc/sysctl.conf。

2022-11-04 16:16:23 2011

原创 dolphinscheduler运维中遇到的问题

使用sql节点时由于dolohin写了hive的预编译，某些时候变量不能正确传入，比如 location ‘xxxxx变量名’,在预编译过程中会直接变成 location‘xxxxx?解决方案: 把sql节点替换成shell节点用hive−e ′...............location‘xxxxx{变量名}’来实现变量传参。需要先上传jar到hdfs，然后加上hdfs://nameservice1/前缀.每个需要动态分区的sql都加上设置非严格模式的前置sql。在最下面的jdbc连接参数里配置。

2022-11-02 14:59:00 1184

原创 Flume运维中遇到的问题

关闭文件异常，同名的文件被不同的flume agent打开，在文件第二次打开后，先前打开的agent拥有的token就失效了，因此无法关闭它，尝试设置以下参数。把 JAVA_OPTS="-Xmx20m" 改为 JAVA_OPTS="-Xmx2048m"修改后，重启flume,生效，flume恢复正常运行。尝试后发现，无效，flume后续依然触发了该报错。重启agent，顺畅running。# source增加配置。# sink增加配置。

2022-11-02 14:45:07 1082

原创 Sqoop运维中遇到的问题

此处可以修改 tmpdir 的属性值，也可以修改 query_cache_limit 的数值，建议使用后者。问题原因：在执行SQL的时候，产生临时数据占满了/tmp磁盘空间。1、，使用SQL改掉默认临时数据地址(tmpdir)2、如果出现以上异常，那只能通过配置文件来修改了。1、Sqoop抽取mysql数据量过大。好了，最后重启MySQL就搞定了。

2022-11-02 14:34:38 357

原创 superset运维中遇到的问题

底层presto日志：java.nio.channels.UnresolvedAddressException: undefine。前期可以使用ip端口直接访问superset，后期解决nginx截断请求的问题（解决有跨域问题）。发现presto日志上没有此SQL，说明还没到presto那步就报错了。结合上面两个原因，初步判定：应该是nginx截断了这个请求。发现页面有err_connection_reset问题。最终换版本也未能行，切换tirno到也不行。仔细查看，superset的日志如下。

2022-11-02 13:54:06 867

原创 canal运维中遇到的问题

1、在T0~T1的时间内，表结构A发生过增加列的DDL操作，那在处理T0时间段A表的binlog时，拿到的表结构为T1的镜像，就会出现列不匹配的情况. 抛出异常: column size is not match for table: xx , 12 vs 13。删除之后，再重启canal，恢复正常运行。ps:在故障到故障恢复这段时间内的数据变化会丢失，需要手动补充。

2022-11-02 11:25:48 702

原创 hbase的一些优化建议

适用场景：哈希和加盐的适用场景类似，但是由于加盐方法的前缀是随机数，用原rowkey查询时不方便，因此出现了哈希方法，由于哈希是使用各种常见的算法来计算出的前缀，因此哈希既可以使负载分散到整个集群，又可以轻松读取数据。建议越短越好，不要超过 16 个字节，另外，我们目前使用的服务器操作系统都是 64 位系统，内存是按照 8B 对齐的，因此设计 RowKey 时一般做成 8B 的整数倍，如 16B 或者 24B，可以提高寻址效率。适用场景：RowKey尾部的数据却呈现出了良好的随机性。

2022-10-26 16:48:15 844

原创 HBase Region 简介和建议数量&大小

建议分配合理的region数量，根据写请求量的情况，一般20-200个之间，可以提高集群稳定性，排除很多不确定的因素，提升读写性能。所以，如果一个HRegion中Memstore过多，而且大部分都频繁写入数据，每次flush的开销必然会很大，因此我们也建议在进行表设计的时候尽量减少ColumnFamily的个数。如果很多region，它们中Memstore也过多，内存大小触发Region Server级别限制导致flush，就会对用户请求产生较大的影响，可能阻塞该Region Server上的更新操作。

2022-10-26 16:26:40 4621

libonig.so.2.0.0

libzip.so.5

kibana汉化包

空空如也