- 博客(444)
- 资源 (3)
- 收藏
- 关注
原创 Kafka消费者
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前,考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是Kafka从0.11.x版本开始引入这种分配策略,首先会尽量均衡的放置分区到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。1)需求设置主题为first,7个分区;准备3个消费者,采用粘性分区策略,并进行消费,观察消费分配情况。然后再停止其中一个消费者,再次观察消费分配情况。2)步骤(1)修改分区分配策略为粘性。
2025-01-15 16:36:16
824
原创 Kafka Broker
生产环境中,leader重选举的代价比较大,可能会带来性能影响,建议设置为false关闭。,同样的磁盘,顺序写能到600M/s,而随机写只有100K/s。强制页缓存刷写到磁盘的条数,默认是long的最大值,9223372036854775807。(7)再次查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。(3)查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。
2025-01-15 16:01:05
579
原创 Flink链接Kafka
二、基于 Flink 的 Kafka 消息消费者设置 Flink 执行环境:启用检查点机制:配置 Kafka 属性:创建 Kafka 消费者:将 Kafka 消费者添加到 Flink 数据流:启动 Flink 作业:2.2 消费多个Topic 设置 Flink 执行环境:启用检查点机制:配置 Kafka 属性:定义 Kafka Topic 列表:创建 Kafka 消费者:将 Kafka 消费者添加到 Flink 数据流:启动 Flink 作业:2.3 消费Topic的总体代码2.
2025-01-15 11:56:42
502
原创 SpringBoot链接Kafka
(1)修改SpringBoot核心配置文件application.propeties, 添加生产者相关信息。(1)修改SpringBoot核心配置文件application.propeties。(2)创建controller从浏览器接收数据, 并写入指定的topic。(2)创建类消费Kafka中指定topic的数据。(3)在浏览器中给/atguigu接口发送数据。(3) 向WJ-TEST主题发送数据。
2025-01-14 15:09:09
213
原创 Kafka概述
Kafka是一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。
2025-01-13 14:36:55
403
原创 Kafka常用命令
注意:因为此kafka是加了认证的,必须先读取认证文件里的密码才能查看topics, 如下是认证文件的代码:--command-config ./config/scram_common.properties。该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(的 Topic 中生产消息。
2025-01-13 12:01:45
500
原创 如何进行到Docker容器中运行Kafka
2. 执行docker exec -it bbd bin/bash进入到docker中。3. 进入到/opt/bitnami/kafka/bin中执行kafka脚本。1.docker ps 找到CONTAINER ID 去前三位。
2025-01-10 17:51:31
88
原创 ClickHouse vs StarRocks 选型对比
ClickHouse 是由俄罗斯的第一大搜索引擎Yandex公司开源的列存数据库。令人惊喜的是,ClickHouse 相较于很多商业MPP 数据库,比如 Vertica,InfiniDB 有着极大的性能提升。除了 Yandex 以外,越来越多的公司开始尝试使用 ClickHouse 等列存数据库。对于一般的分析业务,结构性较强且数据变更不频繁,可以考虑将需要进行关联的表打平成宽表,放入 ClickHouse 中。配置丰富,只依赖与Zookeeper线性可扩展性,可以通过添加服务器扩展集群。
2025-01-10 10:43:39
1150
原创 YARN资源调度器
在YARN中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,YARN提供了多种调度器和可配置的策略供选择。FIFO Scheduler(先进先出调度器) ,Capacity Scheduler(容量调度器),Fair Scheduler(公平调度器)。默认情况下,Apache版本YARN使用的是Capacity调度器。如果需要使用其他的调度器,可以在yarn-site.xml中的进行配置,具体的配置方式如下:在YARN中,有。
2025-01-09 16:08:33
754
原创 YARN WebUI 服务
或点击页面左侧Tools栏目中的红线框configuration链接会打开JHS的所需配置页面,在配置页面中,主要有集群自定义配置(core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml)和集群默认配置(core-default.xml、hdfs-default.xml、yarn-default.xml和mapred-default.xml)两种。当点击任意一个应用程序时,会打开一个新页面,并展示这个应用程序的运行信息。
2025-01-09 15:09:21
885
原创 YARN 架构组件及原理
YARN(Yet Another Resource Negotiator,另一种资源协调者) 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是。其中 ResourceManager 负责整个系统的资源管理和分配,而 ApplicationMaster负责单个应用程序的管理。一个全局的资源管理器 ResourceManager 和每个应用程序特有的ApplicationMaster。
2025-01-09 11:09:20
360
原创 YARN 集群
Apache Hadoop YARN是一个标准的Master/Slave集群(主从架构)。其中ResourceManager(RM) 为Master, NodeManager(NM) 为 Slave。常见的是一主多从集群,也可以搭建RM的HA高可用集群。
2025-01-09 10:57:33
1035
原创 Apache Hadoop YARN框架概述
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何理解通用资源管理系统和调度平台?资源管理系统:集群的硬件资源,和程序运行相关,比如内存、CPU等。调度平台:多个程序同时申请计算资源如何分配,调度的规则(算法)。
2025-01-09 09:52:42
861
原创 Royal TSX许可证密钥(6.x后所有版本都可以用)
强大的远程连接管理工具,支持各种连接类型,包括RDP、VNC、基于SSH的终端连接、SFTP/FTP/SCP以及基于网页的连接管理。Royal TSX 6.x任意版本最新版激活码许可证。
2025-01-08 17:26:13
84
原创 Namenode 元数据管理
在HDFS中文件相关元数据具有两种类型文件自身属性信息文件名称、权限,修改时间,文件大小,复制因子,数据块大小。文件块位置映射信息记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。按存储形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。
2025-01-08 10:16:09
675
原创 HDFS读写流程
因为namenode维护管理了文件系统的元数据信息,这就造成了不管是读还是写数据都是基于NameNode开始的,也就是说NameNode成为了HDFS访问的唯一入口。。
2025-01-07 19:16:01
672
原创 HDFS架构原理
HDFS遵循主从架构。NameNode是主节点,负责存储和管理文件系统元数据信息,包括namespace目录结构、文件块位置信息等;DataNode是从节点,负责存储文件具体的数据块。两种角色各司其职,共同协调完成分布式的文件存储服务。SecondaryNameNode是主角色的辅助角色,帮助主角色进行元数据的合并。
2025-01-07 18:30:12
912
原创 HDFS Federation联邦机制
当前的HDFS架构有两个主要的层:命名空间HDFS体系结构中的命名空间层由文件,块和目录组成。该层支持与名称空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录。块存储层(BlockStorage块存储层包括两个部分:块管理: NameNode执行块管理。块管理通过处理注册和定期心跳来提供DataNode群集成员身份。它处理块报告并支持与块相关的操作,如创建,删除,修改或获取块位置。它还维护块的位置,副本位置。为未复制的块管理块复制,并在已复制的块中删除。存储。
2025-01-07 17:18:42
317
原创 HDFS High Availability(HA)高可用
在HA集群中,脑裂指的是当联系主备节点的"心跳线"断开时(即两个节点断开联系时),本来为一个整体、动作协调的HA系统,就分裂成为两个独立的节点。当发生故障Active NN挂掉后,Standby NN 会在它成为Active NN 前,读取所有的JN里面的修改日志,这样就能高可靠的保证与挂掉的NN的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求,从而达到一个高可用的目的。:都认为对方是故障的,自己是主角色。可以看出,9越多,系统的可靠性越强,能够容忍的业务中断时间越少,但是要付出的成本更高。
2025-01-07 17:02:34
1129
原创 HDFS异构存储和存储策略
异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。在读写效率上性能差距大。异构特性允许我们对不同文件选择不同的存储介质进行保存,以实现机器性能的最大化。
2025-01-07 16:38:02
825
原创 Hadoop常用文件存储格式
Arrow促进了许多组件之间的通信。极大的缩减了通信时候序列化、反序列化所浪费的时间。利用Arrow作为内存中数据表示的两个过程可以将数据从一种方法“重定向”到另一种方法,而无需序列化或反序列化。例如,Spark可以使用Python进程发送Arrow数据来执行用户定义的函数。无需进行反序列化,可以直接从启用了Arrow的数据存储系统中接收Arrow数据。例如,Kudu可以将Arrow数据直接发送到Impala进行分析。
2025-01-07 16:09:28
822
原创 Hadoop常用命令总结
chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限。-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去。-appendToFile:追加一个文件到已经存在的文件末尾。-get:将hadoop上某个文件down至本地已有目录下。-cp :从HDFS的一个路径拷贝到HDFS的另一个路径。-touchz:在hadoop指定目录下新建一个空文件。–rm:删除hadoop上指定文件或文件夹。–put:将本地文件存储至hadoop。
2025-01-07 11:42:40
698
原创 HDFS REST HTTP API
WebHDFS其实是HDFS提供的HTTPRESTFul API接口,并且它是独立于Hadoop的版本的,它支持HDFS的完整FileSystem / FileContext接口。它可以让客户端发送http请求的方式来操作HDFS,而无需安装Hadoop。在我们经常使用的HDFS Web UI,它就是基于webhdfs来操作HDFS的。
2025-01-02 09:03:03
120
原创 HDFS Java API实现文件夹创建、文件上传和下载
一、和HDFS集群建立连接 private static Configuration conf =null; private static FileSystem fs =null; /** * 初始化方法 用于和hdfs集群建立连接 * @throws IOException */ @Before public void connectToHdfs() throws IOException { //设置客户端身份 以
2024-12-24 11:41:30
143
原创 Hadoop集群(HDFS集群、YARN集群、MapReduce计算框架)
主要在分布式环境下集群机器,获取海量数据的处理能力,实现分布式集群下的大数据存储和计算。其中存储分布式文件存储、分布式资源管理、分布式计算。
2024-12-23 14:29:46
1468
原创 如何解决SQL语句中左连接left join查询会出现多余重复数据
在使用左连接查询left join时,有时会出现同等查询条件下单查左表是两条数据,左连接右表后多出两条数据变成4条。根本原因是当左表和右表是1对1关系时,左右表数据匹配,数据条数和左表相同,当左表和右表出现1对多的情况时,左表的一条数据可以对应右表的多条数据,此时右表为了匹配左表的每条数据就会多出数据,此时左表的就会出现重复相同的数据。
2024-12-18 15:23:41
792
原创 MySQL Explain 分析SQL语句性能
加载表的顺序如上图table列所示:t1 t3 t2id不同,如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行。
2024-12-18 14:02:21
537
原创 Mysql使用profiling分析慢sql语句的原因
MySQL 的 Query Profiler 是一个使用非常方便的 Query 诊断分析工具,通过该工具可以获取一条Query 在整个执行过程中多种资源的消耗情况,如 CPU,IO,IPC,SWAP 等,以及发生的 PAGE FAULTS,CONTEXT SWITCHE 等等,同时还能得到该 Query 执行过程中 MySQL 所调用的各个函数在源文件中的位置。MySQL5.0.37版本以上支持PROFILING调试功能,让您可以了解SQL语句消耗资源的详细信息。
2024-12-18 13:49:49
337
原创 CTF-数据安全-刷题记录(BUUCTF)
给定密文“ZmxhZ3tUSEVfRkxBR19PRl9USElTX1NUUklOR30=”,需要解密得出明文,并将结果用flag{}提交。首先,观察密文可以发现既有小写字母又有大写字母,并且密文末尾有“=”符号,这是Base64编码的常见特征。常用于将二进制数据编码为ASCII字符串格式,以便于在文本中传输或存储。“=”在Base64编码中通常用作填充字符,以确保编码后的字符串长度是4的倍数。通过密文特征(包含大小写字母和“=”填充字符),确定密文为Base64编码。
2024-12-13 18:31:35
283
原创 CTF-数据安全-知识点梳理
URL地址(常说网址)规定了常用地数字,字母可以直接使用,另外一批作为特殊用户字符也可以直接用(/,:@等),剩下的其它所有字符必须通过%xx编码处理。以base64为例:Base64编码要求把3个8位字节转化为4个6位的字节,之后在6位的前面补两个0,形成8位一个字节的形式,6位2进制能表示的最大数是2的6次方是64,这也是为什么是64个字符(A-Z,a-z,0-9,+,/这64个编码字符,. 如 空格字符,ascii码是32,对应16进制是’20’,那么urlencode编码结果是:%20。
2024-12-13 17:48:15
723
原创 浅谈XDR---扩展检测与响应(Extended Detection and Response)
Bitdefender GravityZone Ultra 将保护与扩展端点检测和响应 (XEDR) 相结合,帮助组织在威胁生命周期中保护端点基础设施,如工作站、服务器和容器。跨端点事件关联将 EDR 的粒度和丰富的安全上下文与 XDR 的基础设施分析结合在一起通过对端点和用户产生的风险进行风险分析并在本地强化创新,Bitdefender 最大限度地减少了端点攻击面,使攻击者更难渗透。
2024-12-09 15:13:09
864
原创 Mybatis-Plus实现分页查询
1. 创建一个 QueryWrapper 实例,用于构建查询条件,OpHighRiskExposureDO为与数据库对应的实体类。2.使用分页工厂创建分页对象,执行查询,并返回结果集,结果类型为 Page;其中 selectMapsPage 方法将查询结果以 Map 的形式返回。PageFactory.buildPage(opHighRiskExposureReq)是用于构建一个Page对象。
2024-12-06 16:56:37
1022
原创 Mac安装MINIO服务器实现本地上传和下载服务
(1) brew 安装(2)安装完成,执行brew info minio(3)启动minio服务。
2024-12-03 13:56:38
738
Monash FIT5217 自然语言处理 期末复习整理详解(中文版)
2022-10-13
jstl.jar和standard.jar
2019-05-15
100-电商项目开发文档.rar
2019-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人