自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(416)
  • 资源 (1)
  • 收藏
  • 关注

转载 【转载】Presto内存管理原理和调优

本文转自:http://armsword.com/2018/05/22/the-memory-management-and-tuning-experience-of-presto/

2024-06-28 14:43:06 24

原创 【Linux命令】top linux下的任务管理器

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态。如果在前台执行该命令,它将独占前台,直到用户终止该程序为止。比较准确的说,top命令提供了实时的对系统处理器的状态监视。它将显示系统中CPU最“敏感”的任务列表。该命令可以按CPU使用、内存使用和执行时间对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定。

2024-06-25 10:55:31 711

原创 【随笔】记录一次对网页关注公众号回复密码获取验证码的分析

某网站如果要查看原文需要关注公众号,并获取密码才能全文观看。心血来潮之下也想自己动手试一下破解公众号验证码引流,这里整理并记录一下。

2024-06-05 13:46:35 477

转载 【Mybatis-plus】批量更新插入的另一种实现逻辑

Mybatis-plus 提供了在service 层的 saveorupdateBatch() 方法,但是这个方法的内部实现原理是一条语句一条语句的去执行,执行效率过低,于是从网上查到了另一个实现方式。通过sql的方式实现批量的插入或更新,这种方式需要有唯一索引,通过唯一索引去判断是否冲突,有冲突就会更新,没有冲突就会插入数据。本文参考:https://blog.csdn.net/hauchun/article/details/126488062。个人感觉这样效率更改更方便,值得推荐。

2024-03-20 16:39:52 456

原创 【Flink】记录Flink 任务单独设置配置文件而不使用集群默认配置的一次实践

我们的大数据环境是 CDP 环境。该环境已经默认添加了的客户端配置。我们的 Flink 任务类型是的任务。默认的配置文件是在目录下。如今我们的需求是个别任务提供的配置仅用于配置执行参数,例如影响作业的配置参数,而不是底层集群。那么我们改如何实现呢。

2024-01-25 13:27:14 870

原创 【VUE】记录一次 VUE中配置生产环境和开发环境方法

我这里 使用Vue CLI(Vue Command Line Interface)创建Vue.js项目是一种简单的方式,它提供了一个交互式的命令行工具来帮助你初始化和管理Vue.js项目。并且我这个项目需要区分生产环境和开发环境。这里具体完整记录下,整个过程。以下内容来自:模式是 Vue CLI 项目中一个重要的概念。模式用于test模式用于production模式用于和你可以通过传递 --mode 选项参数为命令行覆写默认的模式。

2024-01-18 17:04:09 2386

原创 【VUE】element-ui+vue-router:实现导航栏跳转路由

我们设计三个页面,首页是App.vue, 两个导航页面分别为 About.vue, Home.vue。在App.vue 页面中有导航菜单,点击菜单分别跳转。页面中点击导航栏菜单中的某一选项卡,使用导航栏进行路由跳转。

2024-01-16 17:23:30 1642

原创 【ranger】CDP环境 更新 ranger 权限策略会发生低概率丢失权限策略的解决方法

服务在更新(添加) ranger 权限时,会有极低的概率导致 MM2 同步服务报错,报错内容。中看到我们的策略确实是已经配置,但是实际上落实到各个服务的策略缓存时发生了丢失。CM ->ranger-> 配置 -> 日志 -> INFO改为 DEBUG。查看修改配置后,ranger 的性能。但是查看 ranger 权限是赋予的,并且很早配置的权限策略也会报错。CM -> 集群 -> Ranger-> 配置 -> 搜索。1.集群 -> Ranger -> 配置 -> 搜索。就是存放我们实际的缓存策略的文件。

2023-12-18 16:45:32 1179 1

转载 【Linux】Linux下source命令详解

source命令(从 C Shell 而来)是bash shell的内置命令. 点命令,就是一个点符号,是source的另一名称。这两个命令都以一个脚本为参数,该脚本将在当前shell的环境执行,即不会启动一个新的子shell。所有在脚本中设置的变量都将成为当前Shell的一部分。

2023-12-13 13:58:52 1156

原创 【LDAP】LDAP 未授权访问漏洞修复方案

最近生产环境中,被安全团队扫描到了 LDAP服务存在未授权访问漏洞。这里记录下如何解决。

2023-12-12 17:18:10 3046 2

原创 【CDP】CDP 集群通过Knox 访问Yarn Web UI,无法跳转到Flink Web UI 问题解决

记录下在CDP 环境中,通过Knox 访问Yarn Web UI,无法跳转到Flink Web UI 的BUG 解决方法。

2023-12-12 16:28:57 338

原创 【kerberos】使用 curl 访问受 Kerberos HTTP SPNEGO 保护的 URL

大数据集群集成Kerberos 后,很多 WEBUI 打开都会提示输入用户名和密码。这里介绍如何使用 curl 命令行的方式来访问受 Kerberos HTTP SPNEGO 保护的 URL。

2023-11-16 11:18:15 982

原创 【kerberos】Kerberos 调试

使用 Apache Hadoop 的用户通常通过 Kerberos 进行身份验证,如此处所述。第四个命令 KDiag 相对较新,因为它是在 HADOOP-12426 中引入的,并在 Apache Hadoop 2.8.0 中首次发布。此命令将一些其他调试工具合并为一个,并检查常见的与 Kerberos 相关的错误配置。如有必要,它们也可以组合使用。使用正确的日志,可以调试问题并快速解决问题。第一个命令采用用户主体,并将根据配置的hadoop.security.auth_to_local规则返回用户名。

2023-11-02 16:04:06 435

转载 转载:Ubuntu安装OpenLDAP(附错误的详细解决办法)

郁闷,原来openldap-2.4.44要求用Oracle Berkeley 4.4-4.8或者5.0-5.1版本的,而我用的是db-6.2.23.tar.gz版本的。根据http://www.openldap.org/doc/admin24/install.html的安装步骤继续执行。转自:https://www.linuxidc.com/Linux/2016-05/130997.htm。默认是安装到 /usr/local目录下。到这里openldap-2.4.44已经成功的安装到我的系统当中。

2023-09-25 10:05:09 364

转载 【Kafka】转载-Kafka消息压缩与解压

具体来说就是用 CPU 时间去换磁盘空间或网络 I/O 传输量,希望以较小的 CPU 开销带来更少的磁盘占用或更少的网络 I/O 传输。在 Kafka 中,压缩也是用来做这件事的。

2023-09-05 17:54:11 439

原创 【hive】hive修复分区或修复表 以及msck命令的使用

我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话,你用。在 Hive 中,当您向分区表添加、删除或更改分区数据时,有时会导致分区元数据不一致的情况。数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失,重新建表后查看hive分区没有,数据也没有。之前hive里有数据,后面存储元数据信息的。

2023-08-17 15:12:17 4364

原创 【hive】简单介绍hive的几种join

common join 主要是针对数据/业务逻辑的join。Map joinSkew Join是hive 针对特殊数据、场景 进行的优化。则是Sql语句的优化,并且也可以应用上面的优化方案。MAP JION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。

2023-08-17 15:04:53 1483

原创 【hive】hive分桶表的学习

每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。

2023-08-15 16:19:55 1638

原创 【hive】hive中row_number() rank() dense_rank()的用法

主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。

2023-08-15 16:05:26 1857

原创 【问题解决】shell脚本执行错误 $‘\r‘:command not found

shell脚本执行错误 $‘\r’:command not found。

2023-08-15 15:23:13 3006

原创 【kerberos】kerberos创建用户和keytab文件

将生成的keytab 文件放到 新建用户 user01 的家目录下。下面演示下如何创建一个kerberos 和 keytab 文件。user01 为用户名。111111 为密码。

2023-08-15 14:57:37 2556

原创 【问题整理】Ubuntu 执行 apt-get install xxx 报错

这个命令会尝试修复系统中的依赖问题,这可能会解决安装过程中的错误。执行apt-get install fcitx时,报如下错误。这些命令将重新配置未完成的安装,并清理不再需要的文件。确保系统磁盘有足够的空间,以便能够安装新的软件包。按照提示进行操作,选择适当的选项。

2023-08-15 14:40:30 790

原创 Linux 使用Paste 命令进下列合并

在Linux中,可以使用paste命令将多个文件的内容按列合并在一起。paste命令可以将每个文件的一行内容按顺序合并,并用指定的分隔符分隔每个列。以下是paste其中,file1file2等是要合并的文件名,你可以指定多个文件。paste命令会将这些文件按列合并在一起,并输出到标准输出。下面是一些常用的paste-d:指定列之间的分隔符,默认是制表符。-s:串联合并,将每个文件的内容合并成一行,而不是按列合并。–serial:与 -s 等效。

2023-07-21 15:59:05 319

原创 【Kafka】Kafka consumer lag 为负数

最近对Kafka 集群部署了监控,并集成了granfana图标展示。发现有时候为负数。于是进行一番查询,并总结整理下。

2023-07-06 11:01:53 1999

原创 【环境安装】Linux环境中docker安装redis

因为需要redis的配置文件,这里最好还是去redis的官方去下载一个redis使用里面的配置文件即可。可以自定义,因为我的docker的一些配置文件都是存放在。目录下创建一个redis目录,这样是为了方便后期管理。到此 Linux 系统安装redis 就操作完成了。可以去docker hub中去找一下。创建本地存放redis的位置;我这里安装了具体的某个版本。目录下面的,所以我依然在。

2023-05-24 13:59:12 979

原创 【hive】hive order、sort、distribute、cluster by区别与联系

​。

2023-05-19 14:57:24 488

原创 【hive】hive grouping sets和GROUPING__ID的用法

​CUBEROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。根据不同的维度组合进行聚合,等价于将不同维度的group by的结果进行union all,简单来说就是将多个不同维度的group by逻辑写在了 一个sql中。创建表开始使用查询结果如下:上面这个sql等同于多个group by + union all注意点:使用union和union all。

2023-05-15 14:17:43 645

原创 python3 使用163邮箱SMTP发送邮件

使用python3来发送163邮箱邮件,163邮箱是使用465加密端口发送邮件。且必须使用授权码来发送邮件。

2023-05-15 10:31:15 806

原创 【knox】Gateway SSL Certificate is Expired. Server will not start

今天 KNOX 突然无法启动,报错日志与证书过期有关。

2023-05-11 11:35:52 465

原创 【Linux】linux使用flock文件锁解决脚本重复执行问题

现在有个问题,如果设定了任务每2分钟执行一次,但有可能执行该任务需要花费10分钟,这时系统会再执行任务。导致两个相同的任务在执行。是否存在,如果不存在,则创建,然后执行任务,任务执行完后删除锁文件。这样的确可以保证任务执行其间不会有新任务执行,但这样需要在任务文件中写代码做判断,不方便。可以看到有5个进程在运行,我们则希望执行完上一任务,再执行下一任务,如果上一任务未执行完成,则这次的任务不执行,直到下一周期再判断,如果上一任务执行完成,则可以执行下一任务。被锁定,则结束当前的任务,下一周期再判断。

2023-04-26 14:35:48 489

原创 【Hbase】HMaster 在分配region阶段时崩溃 ERROR: “Failed to become active master...“

当用户无法启动HMaster服务,并且在分配region阶段不断崩溃。

2023-04-24 10:58:53 626 1

原创 【Hbase】HBase Master启动报错java.io.IOException: error or interrupted while splitting logs

今天在一个CDH环境中启动HBase时启动发生异常,于是查看HMaster日志,其中一台HBase Master日志信息正常,另外一台HBase Master日志一直在刷相关的日志。

2023-04-24 10:35:21 439

原创 【grafana】使用多级变量解决Granfana模板变量中的大小限制

最近对公司的Kafka 集群集成了服务,我们将topic变量抽象成模板变量,此时发现granfana变量有 10k 的个数限制。导致我们显示topic名称不全。效果如下:全选后只有 10k 个变量。

2023-04-14 16:20:36 1238

原创 【Nginx】 如何在已经安装好的Nginx上增加新模块

需要对NGINX 进行模块扩展,如果已经安装好了Nginx有不想重新安装覆盖的前提下如何新增模块呢?下面通过安装作为示例进行说明,安装其他模块也是同样的道理。

2023-04-11 15:17:38 2952

原创 【SpringBoot】springboot使用RestTemplate 进行http请求失败自动重试

我们的服务需要调用别人的接口,由于对方的接口服务不是很稳定,经常超时,于是需要增加一套重试逻辑。这里使用的方式来实现。一、引入POM二、 修改启动类在Spring Boot 应用入口启动类,也就是配置类的上面加上注解,表示让重试机制生效。@Bean} }

2023-04-10 11:02:34 2811

原创 【CDH】cloudera manger 如何开启Debug 日志调试模式

在安装 Cloudera Manger 时,遇到报错,需要开启Debug 日志级别来排查下问题原因。这里记录下 CM 如何开启 Debug 级别。

2023-03-22 17:19:40 462

原创 【CDP】更改solr 存储路径导致ranger-audit 大量报错问题解决

我们生产上公司是使用的CDP集群,一次管理员通知,Solr 组件的数据存放路径磁盘空间不够。我们的solr 组件时为 Ranger 服务提供日志审计功能,在我们更改了磁盘路径,并重启了Solr 组件,然后发现相关组件,如HDFSKafka等会报相关的报错。

2023-03-06 16:57:59 796

原创 【elasticsearch】elasticsearch es读写原理

今天来学习下 es 的写入原理。

2023-02-20 15:33:29 3077

原创 Suse 安装Apache2服务 You don’t have permission to access the requested directory. There is either no ind

最近在使用 SUSE 操作系统安装 Apache2,用来当作内网的镜像源。在使用过程中遇到一些问题,这里整理并记录一下。

2023-02-17 15:13:24 387

原创 【kerberos】org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN,

在用SUSE 操作系统安装 CM 大数据平台,在集群开启 kerberos 后,使用 HDFS 命令报错如下:环境信息SUSE Linux Enterprise Server 12 Service Pack 1 (SLES 12 SP5)仔细看,在使用 klist 命令时,有个 他指向的路径是: 而在执行 命令时,有个 他指向的路径是 默认是去 目录下找 缓存。然后 SUSE 操作系统下 并不是放在 目录下,导致 客户端认为你没有进行 认证。所以报错。在中,我们增加了下面的参数以后

2023-02-16 10:50:01 1865

重新分配网卡cpuset_irq.sh

重新分配网卡cpu,防止部分cpu被打满,导致网络传输数据有丢失。

2021-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除