性感HF-CSDN博客

zk传统模式：所有brock启动的时候，都会zk的/controller节点注册watch.第一个启动的brocker成功创建临时节点，成为controller.其他创建失败的，则进入监听状态，当controller宕机的时候，重新竞争选出新的controoler;采用消费者的offse偏移量，监听消费的topic,从kafka中获取上一次消费到的那个偏移，开始消费，当消费完成后，需要向kafka报告消费完成更新偏移量信息。消费者消费broker中当前Topic的不同分区中的消息，消费者组之间互不影响；

2026-03-03 17:51:30 317

原创 hive知识点

并行执行：默认情况下，Hive一次只会执行一个阶段，通过设置参数hive.exec.parallel值为true，就可以开启并发执行，将MapReduce阶段、抽样阶段、合并阶段、limit阶段，这些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。数据库是面向事务的，支持处理大量的短查询增删改查操作，查询，执行速度快；

2026-03-03 09:59:49 942

原创 Hbase工作流程

3.当memstore大小达到一定阈值（默认128M）后，会启动flush线程,将内存数据排序落盘到hdfs上，生成Hflie,当hflie数据量过多的时候，一般大于三个，开始进行合并操作，将多个文件合并成一个大的Hflie。4.当Region总的大小超阈值 (默认 10GB)，会触发分裂动作，region一分为二，更新meta表，原来的region下线；当溢写的文件过多时，会触发文件的合并（Compact）操作，合并有两种方式（major，minor） major（大合并）:合并该。

2026-03-02 09:57:05 678

原创 MR工作流程

1、写到100的时候在溢写，maptask就无法在写入数据了，等待溢写完，如何写到80%，会额外开启一个溢写线程，负责将80M数据写出磁盘，主线程依旧可以往内存中写入。**数据阶段：**合并小文件，在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。2.将数据写入到内存缓存区中(默认100MB)，当占用达到80%时，启动溢写线程，溢写前现在内存中进行排序，若设置了规约则现在开始规约，随后写入磁盘生成临时文件。

2026-03-02 09:53:08 231

原创 Yarn工作原理讲解

1.client将任务提交给RM，RM接收到任务后，寻找一个比较空闲的NM节点分配一个container,启动AM并且加载任务信息;多队列，每个队列有固定的容量保证，每个队列分配一定的资源百分比，支持队列内先进先出。优点：响应快，小任务不需要排在大任务后面，能立即获得资源运行资源利用率高：动态调整，避免资源的浪费；抢占机制：如果一个优先级高的队列资源不足，调度器可以强制杀死优先级低的将资源释放出来；4.如果队列资源已满，任务需等待，即使集群其他队列有空闲资源（除非配置了弹性借用）。

2026-02-27 15:38:01 335

原创 HDFS核心机制与流程讲解

hdfs原理讲解

2026-01-08 11:04:34 202

原创部署process_exporter 监控进程

在服务器上制作免密操作，可以连接需要部署的所有服务器。检查cousul中是否将9256的端口已注册。将下载好的tar包解压到服务器上。

2026-01-07 17:35:51 168

原创 pushgateway方式实现自定义yarn Scheduler && presto 监控指标

1.pushgateway的概念pushgateway 是采用被动推送的方式,而不是类似于 prometheus server 主动连接 exporter 获取监控数据。pushgateway 可以单独运行在一个节点,然后需要自定义监控脚本把需要监控的主动推送给 pushgateway的 API 接口, 然后 pushgateway 再等待 prometheus server 抓取数据2.pushgateway的特点pushgateway 本身没有任何抓取监控数据的功能。

2026-01-07 11:25:20 749

原创 Linux 常用命令

lsattr --文件查看属性md5sum — 验证vimdiff hbase-env.sh hbase_bak-env.sh ----对比文件jmap -heap namenode进程号，查看内存进度wget http://yum/hadoop/mysql-connector-java-5.1.40-bin.jar -O /usr/share/java/mysql-connector-java.jar—下载hadoop fs -count -q -h hdfs://10.127.0.0/t

2023-10-17 10:01:12 1482

原创部署docker

安装docker中mysql。

2023-10-16 16:08:10 120 1

原创 Elasticsearch元数据实例搭建

##Elasticsearch元数据集群来支持平台核心指标数据的存储，如集群维度指标、节点维度指标等。#修改配置文件(参考一下配置)#创建ES数据存储目录。#配置用户的打开文件数。

2023-10-16 16:05:19 134 1

原创安装Mvn

1、安装 wget 命令:yum -y install wget2、下载maven安装包wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz3.解压maven安装包tar -zxvf apache-maven-3.5.4-bin.tar.gz4.配置maven： vim /etc/profile在配置文件配置中加上：export MAVEN_HOME=/opt/apac

2023-10-16 16:04:18 115 1

原创安装Nginx服务

curl -I -H “Accept-Encoding: gzip, deflate” “http://10.135.16.24:8188/” ----查看Conten-Encoding 是否是gzip类型（优化方案）在总的nginx.conf 下 http{ }中配置。--使用nginx -t 检查配置是否正确。sudo nginx -s reload 使用配置生效。

2023-10-16 16:03:21 113 2

原创安装pip2

这句错误提示的表面意思是：没有setuptools的模块。

2023-10-16 16:02:20 158 1

原创 LDAP客户端部署

systemctl restart nslcd --重启生效 sudo systemctl restart nslcd.service。vi /etc/nslcd.conf --修改成URI对齐server端 **************************vi /etc/nsswitch.conf —配置要对齐server端 **************************sudo yum install nss-pam-ldapd ----安装 nslcd.sercer。

2023-10-10 14:40:05 299 1

原创 mysql搭建

-更改MySQL账号密码；rpm -ivh --nodeps --force *.rpm -----其中：–nodeps属性表示忽略任意依赖包。-------------mysql忘记密码------------------------------------rpm安装顺序---------#获取初始密码并修改。

2023-10-10 14:32:49 83 1

原创安装grafana服务

添加数据源（其中url参数需要修改成真实的elasticsearch服务地址）#导入大盘模版(示例是其中之一，七个模版都要导入)

2023-10-10 14:30:58 153 1

原创 JAVA环境变量配置

##版本要求11#下载安装包#解压到指定目录#更改目录名#添加到环境变量AVAHOMEbinPATHAVAHOMElibdtjar。

2023-10-10 14:28:52 320 1

原创 centos7安装nodejs

查看node --version 出现版本安装成功。

2023-10-10 14:21:25 173 1

原创 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.metrics.Updater

标题 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.metrics.Updater这个小bug的问题就是依赖产生了两次删掉一次就解决了最后记得一定到刷新呦！！！！

2020-12-19 18:43:43 498 2

原创 HDFS高可用集群搭建

HDFS高可用集群搭建1.使用完全分布式，实现namenode高可用2.安装包解压停止之前的hadoop集群的所有服务，然后重新解压编译后的hadoop压缩包在三台机器上分别创建以下目录:mkdir -p /opt/softwaremkdir -p /opt/server解压压缩包node1机器执行以下命令进行解压cd /opt/softwaretar -zxvf hadoop-2.7.5.tar.gz -C /opt/server/cd /opt/server/hadoop-2.7.

2020-12-17 19:31:18 258 1