- 博客(462)
- 资源 (3)
- 收藏
- 关注
原创 高可用之战:深入分析Cluster 集群模式
Redis集群的做法是 将数据划分为 16384(2的14次方)个哈希槽(slots),如果你有多个实例节点,那么每个实例节点将管理其中一部分的槽位,槽位的信息会存储在各自所归属的节点中。Redis 集群的节点采用 Gossip 协议来广播信息,每个节点都会定期向其他节点发送ping命令,如果接受ping消息的节点在指定时间内没有回复pong,则会认为该节点失联了(PFail),则发送ping的节点就把接受ping的节点标记为主观下线。一个节点认为某个节点宕机不能说明这个节点真的挂起了,无法提供服务了。
2025-04-09 15:49:09
795
原创 高可用之战:Redis Sentinal(哨兵模式)
哨兵模式作为Redis高可用的一种运行机制,专注于对 Redis 实例(master、slaves)运行状态进行监控,并能够在主节点发生故障时通过一系列的操作,实现新的master竞选、主从切换、故障转移,确保整个 Redis 服务的可用性。上面的图可以看到,我们一般会有个Sentinel集群 ,这时候这个集群就发挥作用了,通过投票机制,超过指定数量(一般为半数)的Sentinel 都判断了『主观下线』 ,这时候我们就把 Master 标记为『客观下线』,代表它确实不可用了。请理解清楚图中1、2、3步骤。
2025-04-09 15:45:03
894
原创 Redis高可用之战:主从架构
主节点的Redis我们称之为master,从节点的Redis我们称之为slave,主从复制为单向复制,只能由主到从,不能由从到主。Redis 提供的主从模式,是通过复制的方式,将主服务器上的Redis的数据同步复制一份到从 Redis 服务器,这种做法很常见,MySQL通过binlog进行的主从复制也是这么做的。如果非要保证数据的强一致性,Redis 需要加锁处理,或者使用队列顺序执行,这样势必降低Redis的性能,降低服务的吞吐能力,这就不是高性能Redis所能接受的。
2025-04-09 15:43:49
1053
原创 Flink SQL维表JOIN与异步优化
使用 JOIN 当前维表功能需要注意的是,如果维表插入了一条数据能匹配上之前左表的数据时,JOIN的结果流,不会发出更新的数据以弥补之前的未匹配。在使用维表 JOIN 时,如果维表数据不大,或者 miss key (维表中不存在的 key)非常多,则可以使用 ALL cache,但是可能需要适当调大节点的内存,因为内存需要能同时容纳下两份维表拷贝。的关键字,其含义是每条到达的数据所关联上的是到达时刻的维表快照,也就是说,当数据到达时,我们会根据数据上的 key 去查询远程数据库,拿到匹配的结果后关联输出。
2025-04-02 13:50:56
1036
原创 ClickHouse 学习笔记
的引擎),你将无法直接通过删除操作来实现这一目标。ClickHouse 是为大规模数据分析设计的,它的主要特点是不可变性,即一旦数据被写入后不易修改或删除。2. 在 ClickHouse 中,如果你想要单独删除一行记录,且使用的是。表会映射到一个或多个本地表,删除数据时可以在这些本地表上操作。表,你可以通过查找其本地表进行删除操作。1. 连接到 ClickHouse 服务器。表引擎(或者其他不支持。例如,假设你的本地表为。
2025-03-12 18:13:02
252
原创 Monash FIT全套课程资料(全网最全)
全网最全最详细的Monash课程学习学习资料,包括上课课间、每周的quiz、ass、期末复习笔记、期末真题,有需要的可以联系我哈~
2025-03-05 16:06:32
466
原创 (九)状态管理
Flink的状态有两种:托管状态(Managed State)和原始状态(Raw State)。托管状态就是由Flink统一管理的,状态的存储访问、故障恢复和重组等一系列问题都由Flink实现,我们只要调接口就可以;而原始状态则是自定义的,相当于就是开辟了一块内存,需要我们自己管理,实现状态的序列化和故障恢复。通常我们采用Flink托管状态来实现需求。
2025-02-08 14:50:11
754
原创 (七)Flink中的时间和窗口
1.4.1 时间窗口1.4.2 计数窗口1.5.1 增量聚合函数(ReduceFunction / AggregateFunction)1.5.2 全窗口函数(full window functions)1.5.3 增量聚合和全窗口函数的结合使用
2025-01-23 17:42:52
1034
原创 (六)DataStream API
DataStream API是Flink的核心层API。一个Flink程序,其实就是对DataStream的各种转换。
2025-01-23 14:27:14
1051
原创 (五)Flink运行时架构
很显然,TaskManager的计算资源是有限的,并行的任务越多,每个线程的资源就会越少。一个数据流在算子之间传输数据的形式可以是一对一(one-to-one)的直通(forwarding)模式,也可以是打乱的重分区(redistributing)模式,具体是哪一种形式,取决于算子的种类。在Flink执行过程中,每一个算子(operator)可以包含一个或多个子任务(operator subtask),这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。在这种模式下,数据流的分区会发生改变。
2025-01-23 12:00:23
1324
原创 (四)Flink 运行模式
运行Flinkjob的集群一旦停止,只能去yarn或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的WebUI,很难清楚知道作业在挂的那一刻到底发生了什么。客户端可以自行确定JobManager的地址,也可以通过-m或者-jobmanager参数指定JobManager的地址,JobManager的地址在YARNSession的启动页面中可以找到。在YARN环境中,由于有了外部平台做资源调度,所以我们也可以直接向YARN提交一个单独的作业,从而启动一个Flink集群。
2025-01-17 17:48:37
1020
原创 (三)Flink部署
打包完成后,在target目录下即可找到所需JAR包,JAR包会有两个,FlinkTutorial-1.0-SNAPSHOT.jar和FlinkTutorial-1.0-SNAPSHOT-jar-with-dependencies.jar,因为集群中已经具备任务运行所需的所有依赖,所以。(1)任务打包完成后,我们打开Flink的WEBUI页面,在右侧导航栏点击“SubmitNewJob”,然后点击按钮“+AddNew”,选择要上传运行的JAR包,如下图所示。
2025-01-17 17:38:26
707
原创 Ncat: bind to :::7777: Address already in use报错问题解决
【代码】Ncat: bind to :::7777: Address already in use报错问题解决。
2025-01-17 15:25:54
446
原创 (二)Flink快速上手-WordCount代码编写
的存在,在某些特殊情况下(比如Lambda表达式中),自动提取的信息是不够精细的——只告诉Flink当前的元素由“船头、船身、船尾”构成,根本无法重建出“大船”的模样;需要注意的是,这种代码的实现方式,是基于DataSet API的,也就是我们对数据的处理转换,是看作数据集来进行操作的。对于Flink而言,流才是整个处理逻辑的底层核心,所以流批统一之后的DataStream API更加强大,可以直接处理批处理和流处理的所有场景。下面我们就针对不同类型的输入数据源,用具体的代码来实现流处理。
2025-01-16 16:21:06
1003
原创 Flink报错java.lang.IllegalStateException: No ExecutorFactory found to execute the application
【代码】Flink报错java.lang.IllegalStateException: No ExecutorFactory found to execute the application。
2025-01-16 14:57:13
481
原创 Kafka消费者
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前,考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是Kafka从0.11.x版本开始引入这种分配策略,首先会尽量均衡的放置分区到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。1)需求设置主题为first,7个分区;准备3个消费者,采用粘性分区策略,并进行消费,观察消费分配情况。然后再停止其中一个消费者,再次观察消费分配情况。2)步骤(1)修改分区分配策略为粘性。
2025-01-15 16:36:16
1462
原创 Kafka Broker
生产环境中,leader重选举的代价比较大,可能会带来性能影响,建议设置为false关闭。,同样的磁盘,顺序写能到600M/s,而随机写只有100K/s。强制页缓存刷写到磁盘的条数,默认是long的最大值,9223372036854775807。(7)再次查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。(3)查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。
2025-01-15 16:01:05
1008
原创 Flink链接Kafka
二、基于 Flink 的 Kafka 消息消费者设置 Flink 执行环境:启用检查点机制:配置 Kafka 属性:创建 Kafka 消费者:将 Kafka 消费者添加到 Flink 数据流:启动 Flink 作业:2.2 消费多个Topic 设置 Flink 执行环境:启用检查点机制:配置 Kafka 属性:定义 Kafka Topic 列表:创建 Kafka 消费者:将 Kafka 消费者添加到 Flink 数据流:启动 Flink 作业:2.3 消费Topic的总体代码2.
2025-01-15 11:56:42
1352
原创 SpringBoot链接Kafka
(1)修改SpringBoot核心配置文件application.propeties, 添加生产者相关信息。(1)修改SpringBoot核心配置文件application.propeties。(2)创建controller从浏览器接收数据, 并写入指定的topic。(2)创建类消费Kafka中指定topic的数据。(3)在浏览器中给/atguigu接口发送数据。(3) 向WJ-TEST主题发送数据。
2025-01-14 15:09:09
656
原创 Kafka概述
Kafka是一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。
2025-01-13 14:36:55
438
原创 Kafka常用命令
注意:因为此kafka是加了认证的,必须先读取认证文件里的密码才能查看topics, 如下是认证文件的代码:--command-config ./config/scram_common.properties。该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群(的 Topic 中生产消息。
2025-01-13 12:01:45
836
原创 如何进行到Docker容器中运行Kafka
2. 执行docker exec -it bbd bin/bash进入到docker中。3. 进入到/opt/bitnami/kafka/bin中执行kafka脚本。1.docker ps 找到CONTAINER ID 去前三位。
2025-01-10 17:51:31
136
原创 ClickHouse vs StarRocks 选型对比
ClickHouse 是由俄罗斯的第一大搜索引擎Yandex公司开源的列存数据库。令人惊喜的是,ClickHouse 相较于很多商业MPP 数据库,比如 Vertica,InfiniDB 有着极大的性能提升。除了 Yandex 以外,越来越多的公司开始尝试使用 ClickHouse 等列存数据库。对于一般的分析业务,结构性较强且数据变更不频繁,可以考虑将需要进行关联的表打平成宽表,放入 ClickHouse 中。配置丰富,只依赖与Zookeeper线性可扩展性,可以通过添加服务器扩展集群。
2025-01-10 10:43:39
1664
原创 YARN资源调度器
在YARN中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,YARN提供了多种调度器和可配置的策略供选择。FIFO Scheduler(先进先出调度器) ,Capacity Scheduler(容量调度器),Fair Scheduler(公平调度器)。默认情况下,Apache版本YARN使用的是Capacity调度器。如果需要使用其他的调度器,可以在yarn-site.xml中的进行配置,具体的配置方式如下:在YARN中,有。
2025-01-09 16:08:33
914
原创 YARN WebUI 服务
或点击页面左侧Tools栏目中的红线框configuration链接会打开JHS的所需配置页面,在配置页面中,主要有集群自定义配置(core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml)和集群默认配置(core-default.xml、hdfs-default.xml、yarn-default.xml和mapred-default.xml)两种。当点击任意一个应用程序时,会打开一个新页面,并展示这个应用程序的运行信息。
2025-01-09 15:09:21
1412
原创 YARN 架构组件及原理
YARN(Yet Another Resource Negotiator,另一种资源协调者) 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是。其中 ResourceManager 负责整个系统的资源管理和分配,而 ApplicationMaster负责单个应用程序的管理。一个全局的资源管理器 ResourceManager 和每个应用程序特有的ApplicationMaster。
2025-01-09 11:09:20
602
原创 YARN 集群
Apache Hadoop YARN是一个标准的Master/Slave集群(主从架构)。其中ResourceManager(RM) 为Master, NodeManager(NM) 为 Slave。常见的是一主多从集群,也可以搭建RM的HA高可用集群。
2025-01-09 10:57:33
1106
原创 Apache Hadoop YARN框架概述
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何理解通用资源管理系统和调度平台?资源管理系统:集群的硬件资源,和程序运行相关,比如内存、CPU等。调度平台:多个程序同时申请计算资源如何分配,调度的规则(算法)。
2025-01-09 09:52:42
942
原创 Royal TSX许可证密钥(6.x后所有版本都可以用)
强大的远程连接管理工具,支持各种连接类型,包括RDP、VNC、基于SSH的终端连接、SFTP/FTP/SCP以及基于网页的连接管理。Royal TSX 6.x任意版本最新版激活码许可证。
2025-01-08 17:26:13
693
1
原创 Namenode 元数据管理
在HDFS中文件相关元数据具有两种类型文件自身属性信息文件名称、权限,修改时间,文件大小,复制因子,数据块大小。文件块位置映射信息记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。按存储形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。
2025-01-08 10:16:09
771
原创 HDFS读写流程
因为namenode维护管理了文件系统的元数据信息,这就造成了不管是读还是写数据都是基于NameNode开始的,也就是说NameNode成为了HDFS访问的唯一入口。。
2025-01-07 19:16:01
883
原创 HDFS架构原理
HDFS遵循主从架构。NameNode是主节点,负责存储和管理文件系统元数据信息,包括namespace目录结构、文件块位置信息等;DataNode是从节点,负责存储文件具体的数据块。两种角色各司其职,共同协调完成分布式的文件存储服务。SecondaryNameNode是主角色的辅助角色,帮助主角色进行元数据的合并。
2025-01-07 18:30:12
1188
原创 HDFS Federation联邦机制
当前的HDFS架构有两个主要的层:命名空间HDFS体系结构中的命名空间层由文件,块和目录组成。该层支持与名称空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录。块存储层(BlockStorage块存储层包括两个部分:块管理: NameNode执行块管理。块管理通过处理注册和定期心跳来提供DataNode群集成员身份。它处理块报告并支持与块相关的操作,如创建,删除,修改或获取块位置。它还维护块的位置,副本位置。为未复制的块管理块复制,并在已复制的块中删除。存储。
2025-01-07 17:18:42
348
原创 HDFS High Availability(HA)高可用
在HA集群中,脑裂指的是当联系主备节点的"心跳线"断开时(即两个节点断开联系时),本来为一个整体、动作协调的HA系统,就分裂成为两个独立的节点。当发生故障Active NN挂掉后,Standby NN 会在它成为Active NN 前,读取所有的JN里面的修改日志,这样就能高可靠的保证与挂掉的NN的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求,从而达到一个高可用的目的。:都认为对方是故障的,自己是主角色。可以看出,9越多,系统的可靠性越强,能够容忍的业务中断时间越少,但是要付出的成本更高。
2025-01-07 17:02:34
1313
Monash FIT5217 自然语言处理 期末复习整理详解(中文版)
2022-10-13
100-电商项目开发文档.rar
2019-05-11
jstl.jar和standard.jar
2019-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人