Mumunu--CSDN博客

原创 kerberos环境下parcel方式部署flink1.15.3 基于CDH6.3.2 Flink on Yarn

使用时先启动yarn-session，然后再提交job，每次提交job，也都会分配一个JobManager。Application模式：简答的说就是直接run job，每次提交的任务Yarn都会分配一个JobManager，执行完之后整个资源会释放，包括JobManager和TaskManager。如果没有看到flink的组件，可以通过重启一下cdh，我之前就试过，flink分配、激活成功后，没有看见flink组件的图标，可以通过重启CDH服务，Session模式适合比较小的任务、执行时间比较短的任务。

2023-01-31 15:03:24 2270 4

原创 CDH6.3生产环境中禁用Kerberos

修改了网上相关文档的一些缺陷，在生产环境中实际使用过通过CM停止集群的所有服务服务停止成功修改Zookeeper的enableSecurity为false（取消勾选）将这项配置取消勾选修改HDFS配置修改Hadoop的安全身份验证第一个选为simple，第二个取消勾选修改DataNode的数据目录权限为755改DataNode服务的端口号，分别修改为50010和50075进入HBase服务修改配置修改HBase的身份验证第一个修改为simple，第二个取消勾选，第三个修改为none4。

2023-01-16 17:39:40 1381

原创 kerberos环境下Flink on Yarn集群部署基于flink1.15.3 hadoop 3.0CDH6.3.2

Flink on Yarn的HA高可用模式，首先依赖于Yarn自身的高可用机制（ResourceManager高可用），并通过Yarn对JobManager进行管理，当JobManager失效时，Yarn将重新启动JobManager。

2022-12-09 15:15:47 2497 4

原创 centos7 服务器查看硬盘是SSD还是HDD

我们可以看到硬盘的参数。这可以可以看到硬盘参数，然后搜索看看磁盘到底是什么就知道了。

2022-11-22 17:39:28 4105

原创 Elasticsearch GC优化实践

近期业务查询线上ES集群出现频繁超时告警，尤其是早晨某个时间点固定的报一波超时，从调用链监控上很难看出是什么业务行为导致的。

2022-11-22 15:46:56 2190

原创安装高可用free IPA+CDH6.3.2结合+日常操作

云主机默认不开启IPv6，根据提示，需要在 lo 接口启用IPv6，编辑/etc/sysctl.conf文件，调整或增加：不然会报下面的错误。访问web之前记得在访问机上面的hosts配一下解析然后用你的server主机名进行访问。可能会弹好几次输入账号密码，不知道是什么东西多点击几次取消即可，没用的选择。主机名之类的应该在cdh安装的时候就配好了不再赘述。在网卡配置文件里添加一下freeipa的地址。首先修改一下kerberos的配置文件。在这里输入你配置的账密。在所有客户端服务上运行。

2022-11-18 17:34:30 2003

原创 Elasticsearch7.17.5 集群安装部署和部署账密

修改 /etc/security/limits.d/20-nproc.conf。废话不多说 es应该查这文章的都了解，分发节点之类的简单操作就默认大家都会了。修改 /etc/security/limits.conf。重启一下服务器，刷新一下配置。修改/etc/sysctl.conf。

2022-11-04 16:16:23 2394

原创 dolphinscheduler运维中遇到的问题

使用sql节点时由于dolohin写了hive的预编译，某些时候变量不能正确传入，比如 location ‘xxxxx变量名’,在预编译过程中会直接变成 location‘xxxxx?解决方案: 把sql节点替换成shell节点用hive−e ′...............location‘xxxxx{变量名}’来实现变量传参。需要先上传jar到hdfs，然后加上hdfs://nameservice1/前缀.每个需要动态分区的sql都加上设置非严格模式的前置sql。在最下面的jdbc连接参数里配置。

2022-11-02 14:59:00 1570

原创 Flume运维中遇到的问题

关闭文件异常，同名的文件被不同的flume agent打开，在文件第二次打开后，先前打开的agent拥有的token就失效了，因此无法关闭它，尝试设置以下参数。把 JAVA_OPTS="-Xmx20m" 改为 JAVA_OPTS="-Xmx2048m"修改后，重启flume,生效，flume恢复正常运行。尝试后发现，无效，flume后续依然触发了该报错。重启agent，顺畅running。# source增加配置。# sink增加配置。

2022-11-02 14:45:07 1290

原创 Sqoop运维中遇到的问题

此处可以修改 tmpdir 的属性值，也可以修改 query_cache_limit 的数值，建议使用后者。问题原因：在执行SQL的时候，产生临时数据占满了/tmp磁盘空间。1、，使用SQL改掉默认临时数据地址(tmpdir)2、如果出现以上异常，那只能通过配置文件来修改了。1、Sqoop抽取mysql数据量过大。好了，最后重启MySQL就搞定了。

2022-11-02 14:34:38 459

原创 superset运维中遇到的问题

底层presto日志：java.nio.channels.UnresolvedAddressException: undefine。前期可以使用ip端口直接访问superset，后期解决nginx截断请求的问题（解决有跨域问题）。发现presto日志上没有此SQL，说明还没到presto那步就报错了。结合上面两个原因，初步判定：应该是nginx截断了这个请求。发现页面有err_connection_reset问题。最终换版本也未能行，切换tirno到也不行。仔细查看，superset的日志如下。

2022-11-02 13:54:06 1211

原创 canal运维中遇到的问题

1、在T0~T1的时间内，表结构A发生过增加列的DDL操作，那在处理T0时间段A表的binlog时，拿到的表结构为T1的镜像，就会出现列不匹配的情况. 抛出异常: column size is not match for table: xx , 12 vs 13。删除之后，再重启canal，恢复正常运行。ps:在故障到故障恢复这段时间内的数据变化会丢失，需要手动补充。

2022-11-02 11:25:48 865

原创 hbase的一些优化建议

适用场景：哈希和加盐的适用场景类似，但是由于加盐方法的前缀是随机数，用原rowkey查询时不方便，因此出现了哈希方法，由于哈希是使用各种常见的算法来计算出的前缀，因此哈希既可以使负载分散到整个集群，又可以轻松读取数据。建议越短越好，不要超过 16 个字节，另外，我们目前使用的服务器操作系统都是 64 位系统，内存是按照 8B 对齐的，因此设计 RowKey 时一般做成 8B 的整数倍，如 16B 或者 24B，可以提高寻址效率。适用场景：RowKey尾部的数据却呈现出了良好的随机性。

2022-10-26 16:48:15 991

原创 HBase Region 简介和建议数量&大小

建议分配合理的region数量，根据写请求量的情况，一般20-200个之间，可以提高集群稳定性，排除很多不确定的因素，提升读写性能。所以，如果一个HRegion中Memstore过多，而且大部分都频繁写入数据，每次flush的开销必然会很大，因此我们也建议在进行表设计的时候尽量减少ColumnFamily的个数。如果很多region，它们中Memstore也过多，内存大小触发Region Server级别限制导致flush，就会对用户请求产生较大的影响，可能阻塞该Region Server上的更新操作。

2022-10-26 16:26:40 5620

原创 hbase基础概念和读取写入流程

包含访问HBase的接口，维护着一些Cache来加快对HBase的访问，比如缓存regione的位置信息等；保证任何时候，集群中只有一个master；存贮所有Region的寻址入口Root Region的位置；实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master；存储Hbase的schema,包括有哪些table，每个table有哪些column family；主要负责Region的分配与重分配；RegionServer的负载均衡；

2022-10-26 16:14:50 1354

原创 CDH配置Kerberos和Sentry详解

Kerberos是一种计算机网络授权协议，用来在非安全网络中，对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构，并且能够进行相互认证，即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合，是一种应用对称密钥体制进行密钥管理的系统。1.kinit认证时密码输入正确却提示密码错误。

2022-10-19 14:52:11 2526 2

原创 CDH6.3.2详细安装教程

CDH从6.3.3版开始不再免费，包括之前的安装包都需要会员下载。6.3.2及以下版本可免费使用但无法免费下载，大家如有需要可联系我索取安装包。

2022-10-19 10:46:26 2434 1

原创 hbase常用shell命令

【代码】HBase常用知识。

2022-10-13 15:34:35 1264

原创 datax运维中遇到的问题

1、HDFS主从切换会导致Datax脚本无法连接HDFS。

2022-10-13 15:06:58 1264

原创 hdfs运维中遇到的问题

HDFS在写的时候有设置块大小，默认128M，Distcp 从源集群读文件后写入新集群，默认是使用的MR任务中的dfs.blocksize 128M。4、在distcp写完文件后，会基于块的物理大小做校验，因为该文件在新旧集群中blocksize不一致，因此拆分大小不一致，导致校验失败。常见的网络不通端口不通 hdfs拿到的主机名无法解析，没有配映射，如果双网卡拿到的ip和能通的ip不一样。用这个命令看下拿到的ip是不是你能通的ip，还有hdfs本身是直接访问ip 还是通过主机名进行访问的。

2022-10-13 14:26:14 2296 1

原创 Hive常用参数语句

3.设置map reduce个数。2.union all并发执行。6.设置引擎和指定队列。

2022-10-12 11:50:48 265

原创生产异常 Cause: com.mysql.cj.jdbc.exceptions.MySQLTransactionRollbackException: Lock wait timeout exceed

4、由于是生产，急需处理业务数据，所以临时解决方案，是先kill 掉，未能提交事务的线程，目前的解决方案，就是手动kill掉长期挂起，未提交的事务。

2022-10-11 18:22:06 3047 5

原创一些nginx生产配置示例

location 转发设置跨域。用nginx设置简单账密校验。普通location转发。不能配置到http模块下。我比较爱用的日志格式。

2022-09-29 17:00:56 374

原创 clickhouse 高可用负载均衡chproxy1.17生产环境配置与使用

的 HTTP 代理和负载平衡器主要有这几个功能，详细的可以看官网本文提供一些生产环境的例子。官网的例子都比较简单，也没有相关配置的解释，本文不涉及https部分ClickHouseappserverstats-raw。

2022-08-29 17:41:24 2139

原创 ElasticSearch读写底层原理及性能调优

有很多场景是，我们的 ES 集群占用了多大的 cpu 使用率，该如何调节呢。cpu 使用率高，有可能是写入导致的，也有可能是查询导致的，那要怎么查看呢？可以先通过 GET _nodes/{node}/hot_threads 查看线程栈，查看是哪个线程占用 cpu 高，如果是 elasticsearch[{node}][search][T#10] 则是查询导致的，如果是 elasticsearch[{node}][bulk][T#1] 则是数据写入导致的。...

2022-08-17 18:41:38 409

原创 CDH 运维中遇到的问题

虽然名字是404 其实是权限问题查一下opt/cloudera/parcel-cache/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.torrent 的权限吧应该是640 改成644就好了。

2022-08-03 12:25:59 2644

原创 Nifi 1.16.3 集群搭建+kerberos+用户认证

同理有Client/Server这个选项则是使用一个证书颁发机构服务器，该服务器接受来自客户端的证书签名请求，对其进行签名，然后将生成的证书发回。看了一下网上的文档大多数是基于比较早的版本的，把我的经验拿出来分享一下，希望大家少踩坑，另外nifi1.15.3之后的版本都必须加上TLS，如果不需要权限管理的话可以使用1.15.2版本，-C生成适合在指定DN的浏览器中使用的客户端证书里面的都是一些标记配置，按自己需要填写，比如CN=prod。这个名称很重要，是你用来登录的时候使用的域名。.........

2022-07-21 11:36:31 897

原创 dolphinscheduler3.0生产环境搭建+hadoop+kerberos

然后分发到alert-serverapi-servermaster-serverworker-server的conf下直接覆盖原来的就好了，这些配置文件都是一样的。记得把包分发到所有节点的所有服务，alert-serverapi-servermaster-serverworker-server命令只是换换位置，不再赘述。搭完之后应该是访问不了的，因为部署脚本有bug，没有分发mysql包到api-server上。完了就可以stop-allstart-all。...............

2022-07-20 18:25:21 2892 6

原创 Kerberos环境下命令行连接kafka 和zk

加入kerberos 之后用普通命令行就无法直接操作kafka和zk了需要增加几个文件首先添加kafka的环境文件启动producer consumer 需要另外一个文件然后命令行启动即可连接zk也需要同样的一个配置文件编写jaas-zk-keytab.conf文件将jaas-zk-keytab.conf加载到环境变量连接客户端时候一定要用-server参数指定zookeeper节点，不然连接不上不行就也kinit 一下再连接.........

2022-07-01 11:01:35 2595

原创 Doris 运维中遇到的问题

启动从 FE报错ERROR (UNKNOWN 172.16.99.80_9010_1655969096729(-1)|1) [BDBEnvironment.setup():198] error to open replicated environment. will exit.com.sleepycat.je.EnvironmentFailureException: (JE 7.3.7) Ids: 1 were equal. But names: 172.16.99.79_9010_1655893533

2022-06-23 17:34:28 6025 3

libzip.so.5

kibana汉化包

libonig.so.2.0.0

空空如也