- 博客(23)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 kafka讲解
zk传统模式:所有brock启动的时候,都会zk的/controller节点注册watch.第一个启动的brocker成功创建临时节点,成为controller.其他创建失败的,则进入监听状态,当controller宕机的时候,重新竞争选出新的controoler;采用消费者的offse偏移量,监听消费的topic,从kafka中获取上一次消费到的那个偏移,开始消费,当消费完成后,需要向kafka报告消费完成更新偏移量信息。消费者消费broker中当前Topic的不同分区中的消息,消费者组之间互不影响;
2026-03-03 17:51:30
317
原创 hive知识点
并行执行:默认情况下,Hive一次只会执行一个阶段,通过设置参数hive.exec.parallel值为true,就可以开启并发执行,将MapReduce阶段、抽样阶段、合并阶段、limit阶段,这些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。数据库是面向事务的,支持处理大量的短查询增删改查操作,查询,执行速度快;
2026-03-03 09:59:49
942
原创 Hbase工作流程
3.当memstore大小达到一定阈值(默认128M)后,会启动flush线程,将内存数据排序落盘到hdfs上,生成Hflie,当hflie数据量过多的时候,一般大于三个,开始进行合并操作,将多个文件合并成一个大的Hflie。4.当Region总的大小超阈值 (默认 10GB),会触发分裂动作,region一分为二,更新meta表,原来的region下线;当溢写的文件过多时,会触发文件的合并(Compact)操作,合并有两种方式(major,minor) major(大合并):合并该。
2026-03-02 09:57:05
678
原创 MR工作流程
1、写到100的时候在溢写,maptask就无法在写入数据了,等待溢写完,如何写到80%,会额外开启一个溢写线程,负责将80M数据写出磁盘,主线程依旧可以往内存中写入。**数据阶段:**合并小文件,在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行较慢。2.将数据写入到内存缓存区中(默认100MB),当占用达到80%时,启动溢写线程,溢写前现在内存中进行排序,若设置了规约则现在开始规约,随后写入磁盘生成临时文件。
2026-03-02 09:53:08
231
原创 Yarn工作原理讲解
1.client将任务提交给RM,RM接收到任务后,寻找一个比较空闲的NM节点分配一个container,启动AM并且加载任务信息;多队列,每个队列有固定的容量保证,每个队列分配一定的资源百分比,支持队列内先进先出。优点:响应快,小任务不需要排在大任务后面,能立即获得资源运行 资源利用率高:动态调整,避免资源的浪费;抢占机制:如果一个优先级高的队列资源不足,调度器可以强制杀死优先级低的将资源释放出来;4.如果队列资源已满,任务需等待,即使集群其他队列有空闲资源(除非配置了弹性借用)。
2026-02-27 15:38:01
335
原创 部署process_exporter 监控进程
在服务器上制作免密操作,可以连接需要部署的所有服务器。检查cousul中是否将9256的端口已注册。将下载好的tar包解压到服务器上。
2026-01-07 17:35:51
168
原创 pushgateway方式实现自定义yarn Scheduler && presto 监控指标
1.pushgateway的概念pushgateway 是采用被动推送的方式,而不是类似于 prometheus server 主动连接 exporter 获取监控数据。pushgateway 可以单独运行在一个节点,然后需要自定义监控脚本把需要监控的主动推送给 pushgateway的 API 接口, 然后 pushgateway 再等待 prometheus server 抓取数据2.pushgateway的特点pushgateway 本身没有任何抓取监控数据的功能。
2026-01-07 11:25:20
749
原创 Linux 常用命令
lsattr --文件查看属性md5sum — 验证vimdiff hbase-env.sh hbase_bak-env.sh ----对比文件jmap -heap namenode进程号,查看内存进度wget http://yum/hadoop/mysql-connector-java-5.1.40-bin.jar -O /usr/share/java/mysql-connector-java.jar—下载hadoop fs -count -q -h hdfs://10.127.0.0/t
2023-10-17 10:01:12
1482
原创 Elasticsearch元数据实例搭建
##Elasticsearch元数据集群来支持平台核心指标数据的存储,如集群维度指标、节点维度指标等。#修改配置文件(参考一下配置)#创建ES数据存储目录。#配置用户的打开文件数。
2023-10-16 16:05:19
134
1
原创 安装Mvn
1、安装 wget 命令:yum -y install wget2、下载maven安装包wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz3.解压maven安装包tar -zxvf apache-maven-3.5.4-bin.tar.gz4.配置maven: vim /etc/profile在配置文件配置中加上:export MAVEN_HOME=/opt/apac
2023-10-16 16:04:18
115
1
原创 安装Nginx服务
curl -I -H “Accept-Encoding: gzip, deflate” “http://10.135.16.24:8188/” ----查看Conten-Encoding 是否是gzip类型 (优化方案)在总的nginx.conf 下 http{ }中配置。--使用nginx -t 检查配置是否正确。sudo nginx -s reload 使用配置生效。
2023-10-16 16:03:21
113
2
原创 LDAP客户端部署
systemctl restart nslcd --重启生效 sudo systemctl restart nslcd.service。vi /etc/nslcd.conf --修改成URI对齐server端 **************************vi /etc/nsswitch.conf —配置要对齐server端 **************************sudo yum install nss-pam-ldapd ----安装 nslcd.sercer。
2023-10-10 14:40:05
299
1
原创 mysql搭建
-更改MySQL账号密码;rpm -ivh --nodeps --force *.rpm -----其中:–nodeps属性表示忽略任意依赖包。-------------mysql忘记密码------------------------------------rpm安装顺序---------#获取初始密码并修改。
2023-10-10 14:32:49
83
1
原创 安装grafana服务
添加数据源(其中url参数需要修改成真实的elasticsearch服务地址)#导入大盘模版(示例是其中之一,七个模版都要导入)
2023-10-10 14:30:58
153
1
原创 JAVA环境变量配置
##版本要求11#下载安装包#解压到指定目录#更改目录名#添加到环境变量AVAHOMEbinPATHAVAHOMElibdtjar。
2023-10-10 14:28:52
320
1
原创 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.metrics.Updater
标题 Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.metrics.Updater这个小bug的问题就是依赖产生了两次 删掉一次就解决了最后记得一定到刷新呦!!!!
2020-12-19 18:43:43
498
2
原创 HDFS高可用集群搭建
HDFS高可用集群搭建1.使用完全分布式,实现namenode高可用2.安装包解压停止之前的hadoop集群的所有服务,然后重新解压编译后的hadoop压缩包在三台机器上分别创建以下目录:mkdir -p /opt/softwaremkdir -p /opt/server解压压缩包node1机器执行以下命令进行解压cd /opt/softwaretar -zxvf hadoop-2.7.5.tar.gz -C /opt/server/cd /opt/server/hadoop-2.7.
2020-12-17 19:31:18
258
1
原创 hosts文件
Windows 里面hosts 保存不上的方法这里是hosts的路径1 找到hosts复制一份出来 放到桌面上2 在桌面上的hosts里面添加域名映射3.4.然后把桌面上的hosts放在etc路径里面的hosts去替换掉原来的hosts;
2020-12-11 17:02:11
342
Hadoop get100个日志命令
2021-07-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅