金州饿霸-CSDN博客

原创我的力扣刷题顺序（参考代码回忆录）

我的力扣刷题顺序（参考代码回忆录）

2022-11-17 10:27:36 1163 1

原创 MySQL--慢查询日志、日志分析工具mysqldumpslow

MySQL--慢查询日志、日志分析工具mysqldumpslow

2025-06-09 17:01:32 405

Redis集群的做法是将数据划分为 16384（2的14次方）个哈希槽（slots），如果你有多个实例节点，那么每个实例节点将管理其中一部分的槽位，槽位的信息会存储在各自所归属的节点中。Redis 集群的节点采用 Gossip 协议来广播信息，每个节点都会定期向其他节点发送ping命令，如果接受ping消息的节点在指定时间内没有回复pong，则会认为该节点失联了（PFail），则发送ping的节点就把接受ping的节点标记为主观下线。一个节点认为某个节点宕机不能说明这个节点真的挂起了，无法提供服务了。

2025-04-09 15:49:09 795

原创高可用之战：Redis Sentinal（哨兵模式）

哨兵模式作为Redis高可用的一种运行机制，专注于对 Redis 实例（master、slaves）运行状态进行监控，并能够在主节点发生故障时通过一系列的操作，实现新的master竞选、主从切换、故障转移，确保整个 Redis 服务的可用性。上面的图可以看到，我们一般会有个Sentinel集群，这时候这个集群就发挥作用了，通过投票机制，超过指定数量（一般为半数）的Sentinel 都判断了『主观下线』，这时候我们就把 Master 标记为『客观下线』，代表它确实不可用了。请理解清楚图中1、2、3步骤。

2025-04-09 15:45:03 894

原创 Redis高可用之战：主从架构

主节点的Redis我们称之为master，从节点的Redis我们称之为slave，主从复制为单向复制，只能由主到从，不能由从到主。Redis 提供的主从模式，是通过复制的方式，将主服务器上的Redis的数据同步复制一份到从 Redis 服务器，这种做法很常见，MySQL通过binlog进行的主从复制也是这么做的。如果非要保证数据的强一致性，Redis 需要加锁处理，或者使用队列顺序执行，这样势必降低Redis的性能，降低服务的吞吐能力，这就不是高性能Redis所能接受的。

2025-04-09 15:43:49 1053

原创 Flink SQL维表JOIN与异步优化

使用 JOIN 当前维表功能需要注意的是，如果维表插入了一条数据能匹配上之前左表的数据时，JOIN的结果流，不会发出更新的数据以弥补之前的未匹配。在使用维表 JOIN 时，如果维表数据不大，或者 miss key （维表中不存在的 key）非常多，则可以使用 ALL cache，但是可能需要适当调大节点的内存，因为内存需要能同时容纳下两份维表拷贝。的关键字，其含义是每条到达的数据所关联上的是到达时刻的维表快照，也就是说，当数据到达时，我们会根据数据上的 key 去查询远程数据库，拿到匹配的结果后关联输出。

2025-04-02 13:50:56 1036

原创 ClickHouse 学习笔记

的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse 是为大规模数据分析设计的，它的主要特点是不可变性，即一旦数据被写入后不易修改或删除。2. 在 ClickHouse 中，如果你想要单独删除一行记录，且使用的是。表会映射到一个或多个本地表，删除数据时可以在这些本地表上操作。表，你可以通过查找其本地表进行删除操作。1. 连接到 ClickHouse 服务器。表引擎（或者其他不支持。例如，假设你的本地表为。

2025-03-12 18:13:02 252

原创 Monash FIT全套课程资料（全网最全）

全网最全最详细的Monash课程学习学习资料，包括上课课间、每周的quiz、ass、期末复习笔记、期末真题，有需要的可以联系我哈～

2025-03-05 16:06:32 466

原创（九）状态管理

Flink的状态有两种：托管状态（Managed State）和原始状态（Raw State）。托管状态就是由Flink统一管理的，状态的存储访问、故障恢复和重组等一系列问题都由Flink实现，我们只要调接口就可以；而原始状态则是自定义的，相当于就是开辟了一块内存，需要我们自己管理，实现状态的序列化和故障恢复。通常我们采用Flink托管状态来实现需求。

2025-02-08 14:50:11 754

原创（八）处理函数

可以明显看出，这里的参数不再是一个输入数据，而是窗口中所有数据的集合。

2025-02-07 16:43:41 987

原创（七）Flink中的时间和窗口

1.4.1 时间窗口1.4.2 计数窗口1.5.1 增量聚合函数（ReduceFunction / AggregateFunction）1.5.2 全窗口函数（full window functions）1.5.3 增量聚合和全窗口函数的结合使用

2025-01-23 17:42:52 1034

原创（六）DataStream API

DataStream API是Flink的核心层API。一个Flink程序，其实就是对DataStream的各种转换。

2025-01-23 14:27:14 1051

原创（五）Flink运行时架构

很显然，TaskManager的计算资源是有限的，并行的任务越多，每个线程的资源就会越少。一个数据流在算子之间传输数据的形式可以是一对一（one-to-one）的直通（forwarding）模式，也可以是打乱的重分区（redistributing）模式，具体是哪一种形式，取决于算子的种类。在Flink执行过程中，每一个算子（operator）可以包含一个或多个子任务（operator subtask），这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。在这种模式下，数据流的分区会发生改变。

2025-01-23 12:00:23 1324

原创（四）Flink 运行模式

运行Flinkjob的集群一旦停止，只能去yarn或本地磁盘上查看日志，不再可以查看作业挂掉之前的运行的WebUI，很难清楚知道作业在挂的那一刻到底发生了什么。客户端可以自行确定JobManager的地址，也可以通过-m或者-jobmanager参数指定JobManager的地址，JobManager的地址在YARNSession的启动页面中可以找到。在YARN环境中，由于有了外部平台做资源调度，所以我们也可以直接向YARN提交一个单独的作业，从而启动一个Flink集群。

2025-01-17 17:48:37 1020

原创（三）Flink部署

打包完成后，在target目录下即可找到所需JAR包，JAR包会有两个，FlinkTutorial-1.0-SNAPSHOT.jar和FlinkTutorial-1.0-SNAPSHOT-jar-with-dependencies.jar，因为集群中已经具备任务运行所需的所有依赖，所以。（1）任务打包完成后，我们打开Flink的WEBUI页面，在右侧导航栏点击“SubmitNewJob”，然后点击按钮“+AddNew”，选择要上传运行的JAR包，如下图所示。

2025-01-17 17:38:26 707

原创 Ncat: bind to :::7777: Address already in use报错问题解决

【代码】Ncat: bind to :::7777: Address already in use报错问题解决。

2025-01-17 15:25:54 446

原创（二）Flink快速上手-WordCount代码编写

的存在，在某些特殊情况下（比如Lambda表达式中），自动提取的信息是不够精细的——只告诉Flink当前的元素由“船头、船身、船尾”构成，根本无法重建出“大船”的模样；需要注意的是，这种代码的实现方式，是基于DataSet API的，也就是我们对数据的处理转换，是看作数据集来进行操作的。对于Flink而言，流才是整个处理逻辑的底层核心，所以流批统一之后的DataStream API更加强大，可以直接处理批处理和流处理的所有场景。下面我们就针对不同类型的输入数据源，用具体的代码来实现流处理。

2025-01-16 16:21:06 1003

原创（一）Flink概述

表 Flink 和 Streaming对比。少、不灵活（窗口必须是批次的整数倍）

2025-01-16 15:24:26 504

原创 Flink报错java.lang.IllegalStateException: No ExecutorFactory found to execute the application

【代码】Flink报错java.lang.IllegalStateException: No ExecutorFactory found to execute the application。

2025-01-16 14:57:13 481

原创 Kafka消费者

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变动，可以节省大量的开销。粘性分区是Kafka从0.11.x版本开始引入这种分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的分区不变化。1）需求设置主题为first，7个分区；准备3个消费者，采用粘性分区策略，并进行消费，观察消费分配情况。然后再停止其中一个消费者，再次观察消费分配情况。2）步骤（1）修改分区分配策略为粘性。

2025-01-15 16:36:16 1462

原创 Kafka Broker

生产环境中，leader重选举的代价比较大，可能会带来性能影响，建议设置为false关闭。，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。强制页缓存刷写到磁盘的条数，默认是long的最大值，9223372036854775807。（7）再次查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。（3）查看/kafka/brokers/topics/first/partitions/0/state路径上的数据。

2025-01-15 16:01:05 1008

原创 Kafka生产者

如果研发人员可以根据企业需求，自己重新实现分区器。

2025-01-15 15:00:01 1232

原创 Flink链接Kafka

二、基于 Flink 的 Kafka 消息消费者设置 Flink 执行环境：启用检查点机制：配置 Kafka 属性：创建 Kafka 消费者：将 Kafka 消费者添加到 Flink 数据流：启动 Flink 作业：2.2 消费多个Topic 设置 Flink 执行环境：启用检查点机制：配置 Kafka 属性：定义 Kafka Topic 列表：创建 Kafka 消费者：将 Kafka 消费者添加到 Flink 数据流：启动 Flink 作业：2.3 消费Topic的总体代码2.

2025-01-15 11:56:42 1352

原创 SpringBoot链接Kafka

（1）修改SpringBoot核心配置文件application.propeties, 添加生产者相关信息。（1）修改SpringBoot核心配置文件application.propeties。（2）创建controller从浏览器接收数据, 并写入指定的topic。（2）创建类消费Kafka中指定topic的数据。（3）在浏览器中给/atguigu接口发送数据。（3) 向WJ-TEST主题发送数据。

2025-01-14 15:09:09 656

原创 Kafka概述

Kafka是一个开源的分布式事件流平台（Event Streaming Platform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

2025-01-13 14:36:55 438

原创 Kafka常用命令

注意：因为此kafka是加了认证的，必须先读取认证文件里的密码才能查看topics, 如下是认证文件的代码：--command-config ./config/scram_common.properties。该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群（该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群（该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群（该命令通过 Kafka CLI 工具连接到指定的 Kafka 集群（的 Topic 中生产消息。

2025-01-13 12:01:45 836

原创如何进行到Docker容器中运行Kafka

2. 执行docker exec -it bbd bin/bash进入到docker中。3. 进入到/opt/bitnami/kafka/bin中执行kafka脚本。1.docker ps 找到CONTAINER ID 去前三位。

2025-01-10 17:51:31 136

原创 ClickHouse vs StarRocks 选型对比

ClickHouse 是由俄罗斯的第一大搜索引擎Yandex公司开源的列存数据库。令人惊喜的是，ClickHouse 相较于很多商业MPP 数据库，比如 Vertica，InfiniDB 有着极大的性能提升。除了 Yandex 以外，越来越多的公司开始尝试使用 ClickHouse 等列存数据库。对于一般的分析业务，结构性较强且数据变更不频繁，可以考虑将需要进行关联的表打平成宽表，放入 ClickHouse 中。配置丰富，只依赖与Zookeeper线性可扩展性，可以通过添加服务器扩展集群。

2025-01-10 10:43:39 1664

原创 YARN资源调度器

在YARN中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。为此，YARN提供了多种调度器和可配置的策略供选择。FIFO Scheduler（先进先出调度器），Capacity Scheduler（容量调度器），Fair Scheduler（公平调度器）。默认情况下，Apache版本YARN使用的是Capacity调度器。如果需要使用其他的调度器，可以在yarn-site.xml中的进行配置，具体的配置方式如下：在YARN中，有。

2025-01-09 16:08:33 914

原创 YARN WebUI 服务

或点击页面左侧Tools栏目中的红线框configuration链接会打开JHS的所需配置页面，在配置页面中，主要有集群自定义配置（core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml）和集群默认配置（core-default.xml、hdfs-default.xml、yarn-default.xml和mapred-default.xml）两种。当点击任意一个应用程序时，会打开一个新页面，并展示这个应用程序的运行信息。

2025-01-09 15:09:21 1412

原创 hadoop-yarn常用命令

YARN提供了一组命令行工具，用于管理和监控YARN应用程序和集群。

2025-01-09 14:35:21 2502

原创 YARN 架构组件及原理

YARN（Yet Another Resource Negotiator，另一种资源协调者）是 Hadoop 2.0 中的资源管理系统，它的基本设计思想是。其中 ResourceManager 负责整个系统的资源管理和分配，而 ApplicationMaster负责单个应用程序的管理。一个全局的资源管理器 ResourceManager 和每个应用程序特有的ApplicationMaster。

2025-01-09 11:09:20 602

原创 YARN 集群

Apache Hadoop YARN是一个标准的Master/Slave集群（主从架构）。其中ResourceManager（RM）为Master， NodeManager（NM）为 Slave。常见的是一主多从集群，也可以搭建RM的HA高可用集群。

2025-01-09 10:57:33 1106

原创 Apache Hadoop YARN框架概述

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何理解通用资源管理系统和调度平台？资源管理系统：集群的硬件资源，和程序运行相关，比如内存、CPU等。调度平台：多个程序同时申请计算资源如何分配，调度的规则（算法）。

2025-01-09 09:52:42 942

原创 Royal TSX许可证密钥(6.x后所有版本都可以用)

强大的远程连接管理工具，支持各种连接类型，包括RDP、VNC、基于SSH的终端连接、SFTP/FTP/SCP以及基于网页的连接管理。Royal TSX 6.x任意版本最新版激活码许可证。

2025-01-08 17:26:13 693 1

原创 Namenode 元数据管理

在HDFS中文件相关元数据具有两种类型文件自身属性信息文件名称、权限，修改时间，文件大小，复制因子，数据块大小。文件块位置映射信息记录文件块和DataNode之间的映射信息，即哪个块位于哪个节点上。按存储形式分为内存元数据和元数据文件两种，分别存在内存和磁盘上。

2025-01-08 10:16:09 771

原创 HDFS读写流程

因为namenode维护管理了文件系统的元数据信息，这就造成了不管是读还是写数据都是基于NameNode开始的，也就是说NameNode成为了HDFS访问的唯一入口。。

2025-01-07 19:16:01 883

原创 HDFS架构原理

HDFS遵循主从架构。NameNode是主节点，负责存储和管理文件系统元数据信息，包括namespace目录结构、文件块位置信息等；DataNode是从节点，负责存储文件具体的数据块。两种角色各司其职，共同协调完成分布式的文件存储服务。SecondaryNameNode是主角色的辅助角色，帮助主角色进行元数据的合并。

2025-01-07 18:30:12 1188

原创 HDFS Federation联邦机制

当前的HDFS架构有两个主要的层：命名空间HDFS体系结构中的命名空间层由文件，块和目录组成。该层支持与名称空间相关的文件系统操作，例如创建，删除，修改和列出文件和目录。块存储层（BlockStorage块存储层包括两个部分：块管理： NameNode执行块管理。块管理通过处理注册和定期心跳来提供DataNode群集成员身份。它处理块报告并支持与块相关的操作，如创建，删除，修改或获取块位置。它还维护块的位置，副本位置。为未复制的块管理块复制，并在已复制的块中删除。存储。

2025-01-07 17:18:42 348

原创 HDFS High Availability（HA）高可用

在HA集群中，脑裂指的是当联系主备节点的"心跳线"断开时(即两个节点断开联系时)，本来为一个整体、动作协调的HA系统，就分裂成为两个独立的节点。当发生故障Active NN挂掉后，Standby NN 会在它成为Active NN 前，读取所有的JN里面的修改日志，这样就能高可靠的保证与挂掉的NN的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求，从而达到一个高可用的目的。：都认为对方是故障的，自己是主角色。可以看出，9越多，系统的可靠性越强，能够容忍的业务中断时间越少，但是要付出的成本更高。

2025-01-07 17:02:34 1313

Flink快速上手-WordCount代码编写

2025-01-16

Flink链接Kafka

2025-01-15

CTF密码学专项解密和加密集成工具

2025-01-08

Shell基础学习笔记

2024-09-30

Shell入门基础学习笔记

2024-09-30

数据同步之SeaTunnel

数据同步工具SeaTunnel

2024-09-27

Monash FIT5217 自然语言处理期末复习整理详解（中文版）

Monash FIT5217 自然语言处理期末复习整理详解（中文版），里面包含了moodle上的所有课后习题，还有每周课件重点知识点整理，看完之后能够应付期末考试的题目，如果想要相关的Ass的资料整理可以私聊我。

2022-10-13

mysql-connector-java-5.1.47

mysql-connector-java-5.1.47用jdbc语言连接数据库的一种工具包

2018-10-07

100-电商项目开发文档.rar

浅谈javaweb三大框架和MVC设计模式。首先我们需要知道MVC模式并不是javaweb项目中独有的，MVC是一种软件工程中的一种软件架构模式，把软件系统分为三个基本部分：模型（Model）、视图（View）和控制器（Controller），即为MVC。它是一种软件设计的典范，最早为Trygve Reenskaug提出，为施乐帕罗奥多研究中心（Xerox PARC）的Smalltalk语言发明的一种软件设计模式。

2019-05-11

jstl.jar和standard.jar

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件。 MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。 MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择 MySQL 作为网站数据库。由于其社区版的性能卓越，搭配 PHP 和 Apache 可组成良好的开发环境。

2019-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人