自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 深入剖析JVM垃圾回收,高并发场景JVM性能调优,内存泄露分析,以及如何避免OOM

/ 永远不删除使用不带失效机制的 HashMap 实现缓存对象引用被长期持有静态变量持有超大量业务对象永远不清除 → 永远强引用 →内存泄漏阶段方法判断依据GC 日志监控Pause Full次数增多、heap used 无明显下降G1 Full GC 仍回收少,频繁触发Heap Dump 分析MAT “Leak Suspects”、GC Roots 路径找到泄漏对象如源码定位分析引用链代码,定位缓存/静态变量明确泄漏 root 来源修复验证增加缓存淘汰策略 + 重新监控。

2025-06-08 18:15:38 979

原创 深入剖析MySQL锁机制,多事务并发场景锁竞争

锁定聚簇索引中的一条具体记录。锁住两条索引记录之间的范围(gap),但不包括已有的记录。即锁住记录本身其前面的间隙关键点内容锁竞争由事务访问冲突资源引发,可能阻塞回滚自动或手动撤销事务操作,使用 Undo 日志还原死锁检测InnoDB 内部维护等待图,自动检测并终止代价小的事务调试工具、慢查询日志等。

2025-06-07 18:59:42 1033

原创 深入剖析MySQL存储架构,索引结构,日志机制,事务提交流程

frm(旧版本)记录表结构MySQL 8 后使用数据字典替代.frm| SQL层 |↓| 查询执行器 → 调用引擎 | ----> | B+树定位主键页 |↓ ↓| 页进入 Buffer Pool |<----| 磁盘 I/O(如未命中) |↓| 写 Undo Log(支持回滚) |↓| 写 Redo Log(支持恢复) |↓| 修改内存页(Buffer Pool)|↓| 提交事务 COMMIT || - Redo 持久化 || - Binlog 写入 |↓。

2025-06-07 17:40:08 1556

原创 深入剖析HBase架构

HBase核心机制与优化策略摘要 HBase采用分布式架构,通过RegionServer集群处理读写请求,关键组件包括客户端、ZooKeeper、HMaster、RegionServer、WAL、MemStore和HFile。读写流程中,客户端先通过ZooKeeper定位目标Region位置,然后直接与对应RegionServer交互。写操作需先写WAL确保可靠性再写入MemStore;读操作依次查询MemStore、BlockCache和HFile。为提升性能,HBase采用BloomFilter、Blo

2025-05-30 18:18:11 1198

原创 Flink架构概览,Flink DataStream API 的使用,FlinkCDC的使用

Flink是一个高性能的分布式流处理引擎,支持精确一次(Exactly-Once)语义,广泛应用于大数据实时处理场景。其核心架构包括Client、JobManager、TaskManager和Slot,分别负责作业提交、调度、任务执行和资源管理。Flink与Hadoop生态系统深度集成,能够与HDFS、Hive、Kafka、HBase、YARN和Zookeeper等组件协同工作,构建完整的大数据处理链路。例如,Flink可以直接读取HDFS中的数据,将计算结果写入Hive表,或通过Kafka进行实时数据采集

2025-05-21 17:40:20 2197

原创 旋转位置RoPE编码详解

步骤操作输入维度5个token,每个512维权重矩阵子空间划分将512维划分为256个二维子空间旋转矩阵生成基于位置 mm 和频率 θi=10000−2i/512θi​=10000−2i/512旋转后Q/K每个二维子空间独立旋转,拼接后保持512维注意力分数内积隐式编码相对位置 n−mn−m通过旋转位置编码,模型无需显式学习位置偏差,直接通过几何变换捕捉相对位置关系,提升长序列建模能力。编码类型实现关键点正余弦编码预计算位置编码矩阵,动态切片适配序列长度,通过广播机制高效相加。旋转编码(RoPE)

2025-05-21 12:34:55 949

原创 深度解析 HDFS与Hive的关系

特性HDFSHive存储对象文件(Block)表(逻辑)元数据内部内存 & FsImage访问方式SQL容错机制Block 副本、NN HA依赖 HDFS 容错执行模式存储为主执行为主(借助 MapReduce/Tez/Spark)阶段类型特征编译阶段类似数据库编译器语法 → 语义 → 优化 → 物理计划执行阶段类似大数据任务Tez/Spark/MR 执行 DAG,有效并行计算元数据阶段类似数据库 Catalog所有数据路径均依赖 Metastore。

2025-05-20 18:37:21 973

原创 深度剖析ZooKeeper

ZooKeeper是一个分布式协调服务,广泛应用于分布式系统中的配置管理、命名服务、分布式锁和领导选举等场景。其架构采用主从模式(Leader-Follower),通过ZAB协议(ZooKeeper Atomic Broadcast)实现数据一致性。ZooKeeper的核心功能包括集群内部通信、数据同步、容错处理和数据一致性保障。在Hadoop生态中,ZooKeeper用于HDFS高可用(HA)中的NameNode选主、YARN ResourceManager HA、HBase Master和RegionS

2025-05-20 12:43:54 1211

原创 【深入Spring系列】源码级深入剖析SpringBoot如何实现自动装载

SpringBoot的自动装载(AutoConfiguration)是其核心功能之一,通过简化配置,使开发者能够快速搭建项目。其实现主要依赖于SpringFramework的条件注解机制和SpringBoot的SPI扩展机制。自动装载的核心机制包括SpringFactoriesLoader加载META-INF/spring.factories文件中的自动配置类,以及@EnableAutoConfiguration注解和AutoConfigurationImportSelector类的配合使用。条件注解如@C

2025-05-14 19:06:40 1985

原创 Kafka原理深度剖析

Kafka的消息流转过程从生产者(Producer)到消费者(Consumer)涉及多个关键步骤。生产者通过Producer API将消息发送到指定Topic,消息经过序列化、分区、批量处理后,通过网络发送到Broker集群。Broker集群中的Leader Broker接收消息并写入本地日志,同时将消息复制到Follower副本,根据配置返回ACK。ZooKeeper或KRaft负责元数据管理、Leader选举和Topic/Partition管理,确保集群健康与一致性。消费者通过Consumer API订

2025-05-13 18:16:38 1120

原创 DeepSeek MoE模型解析和基于pytorch的代码实现

DeepSeekMoE模型基于专家混合(Mixture of Experts, MoE)架构,通过动态路由机制实现计算资源的智能分配。其核心设计包括稀疏专家激活、门控网络创新、专家并行策略和DeepSeek特色改进。稀疏专家激活通过每个输入token仅激活top-k个专家,显著提高计算效率。门控网络引入随机噪声和TopK操作,确保路由的探索性和稀疏性。专家并行策略通过专家分片和动态负载均衡,优化资源利用。DeepSeek的特色改进包括层级专家结构、专家容量缓冲和梯度重标定,进一步提升模型性能。模型训练采用专

2025-05-12 14:37:00 653

原创 BERT底层原理解析及基于pytorch的代码实现

BERT(Bidirectional Encoder Representations from Transformers)是自然语言处理领域的里程碑模型,通过大规模无监督预训练获取深度双向语言表示。其核心架构基于Transformer编码器,采用多头自注意力和前馈网络,并通过残差连接和层归一化增强模型性能。BERT通过掩码机制实现双向上下文建模,突破传统语言模型的单向限制。预训练任务包括掩码语言建模(MLM)和下一句预测(NSP),前者通过掩盖部分输入并最大化条件概率,后者通过二分类判断句对连贯性。BERT

2025-05-10 20:39:37 1242

原创 SpringBoot启动流程详细分析

SpringBoot通过多种设计模式实现了高效、灵活的框架设计。核心设计模式包括模板方法、工厂方法、单例、代理、建造者、观察者、责任链和策略模式,这些模式在SpringBoot的启动流程和组件管理中起到了关键作用。例如,模板方法模式在SpringApplication.run()中定义了统一的生命周期骨架,而工厂方法模式则根据应用类型创建不同的ApplicationContext。SpringBoot的启动流程从main()方法开始,经过环境准备、上下文创建、Bean定义注册、上下文刷新、Web容器启动等步

2025-05-09 17:42:40 709

原创 Transformer底层原理解析及基于pytorch的代码实现

Transformer是自然语言处理领域的革命性架构,其核心设计摒弃了循环结构,采用自注意力机制实现全局依赖建模。主要组件包括自注意力机制、多头注意力、位置编码、残差连接与层归一化。自注意力机制通过查询矩阵(Q)、键矩阵(K)和值矩阵(V)计算注意力权重,多头注意力则并行多个注意力头以捕获不同子空间信息。位置编码通过正弦函数引入序列位置信息,弥补了无循环结构的不足。编码器-解码器架构由多个相同层堆叠,每层包含自注意力和前馈网络。基于PyTorch的实现展示了位置编码、多头注意力、前馈网络和Transform

2025-05-09 17:05:16 1911

原创 GAN生成对抗网络原理解析及基于pytorch的代码实现

生成对抗网络(GAN)通过博弈论框架实现数据生成,其核心是生成器(Generator)与判别器(Discriminator)的对抗训练:1)双网络架构 - 生成器(G):将随机噪声z映射到数据空间,G(z) → 伪样本 - 判别器(D):区分真实数据(P_data)与生成数据(P_g),输出概率值 - 目标函数(极小极大博弈): $$ \min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}}[\log D(x)] + \ma

2025-05-08 14:34:42 988

原创 LSTM底层原理解析及基于pytorch的代码实现

长短期记忆网络(LSTM)是RNN的里程碑式改进,专为解决长期依赖问题而设计。其核心创新在于引入门控机制与细胞状态。1)细胞状态(Cell State)- 信息高速公路:贯穿整个时间序列的水平状态线- 数学表达式:- 与Transformer中的残差连接有相似功能(梯度高速公路)2)三重门控系统3)候选记忆计算- 使用tanh激活函数将值压缩到[-1,1]范围- 与输入门共同决定新记忆的写入量。

2025-05-07 19:17:18 1103

原创 RNN循环神经网络底层原理详细分析及基于pytorch的代码实现

嵌入层将离散字符索引映射为连续向量空间- 参数:`num_embeddings`(词汇表大小), `embedding_dim`(隐藏层维度)- 创建GRU循环层(可替换为LSTM)- `batch_first=True` 表示输入形状为 `(batch, seq, feature)`- 输出形状:`(batch, seq, hidden_size)`- 初始化隐藏状态为全零张量- 形状:`(num_layers, batch_size, hidden_size)`(本例单层)

2025-05-06 14:36:07 698

原创 CNN卷积神经网络底层原理详细分析及基于pytorch的代码实现

`Conv2d`参数详解:- `1`: 输入通道数(MNIST为灰度图)- `32`: 输出通道数(特征图数量)- `padding=1`: 在输入周围填充1圈0,保持空间分辨率(计算公式:`H_out = (H_in + 2*padding - kernel_size)/stride + 1`)- `MaxPool2d(2,2)`:使用2x2窗口,步长2,输出尺寸减半。

2025-05-03 21:02:32 1083

原创 SVM支持向量机原理详解及代码解析

支持向量机(SVM)是一种监督学习模型,核心思想是通过寻找一个最优超平面,最大化不同类别数据之间的间隔。

2025-05-03 20:37:25 1137

原创 强化学习PPO算法逻辑剖析,基于PyTorch实现PPO算法

1. 数据收集:使用当前策略与环境交互,收集轨迹数据2. 优势估计:计算每个状态动作对的GAE优势值3. 策略评估:计算旧策略的动作概率 \( \pi_{\theta_{\text{old}}}(a|s) \)4. 多轮更新:对采样的数据执行多次小批量更新(通常4-10次)5. 策略改进:通过Clipped目标函数优化策略和值函数。

2025-05-03 18:39:43 854

原创 BPE算法详细实现思路与代码解析

1)目标:将文本拆分为子词(Subword)单元,平衡词汇表大小与未登录词(OOV)问题。2)核心策略:1. 从基础字符(如字母)开始,逐步合并高频相邻字符对,形成更大的子词单元。2. 通过迭代合并,构建一个覆盖常见模式的词表,同时保留处理未知组合的能力。

2025-05-03 18:18:33 853

原创 基于PyTorch框架的KV Cache实现原理和详细代码解析

在大型语言模型的推理过程中,KV Cache(键值缓存)是优化自回归生成效率的核心技术。以下是基于PyTorch框架的KV Cache实现原理和详细代码解析。

2025-04-30 18:30:06 411

原创 DeepSeek的MoE模型和GPT系列模型对比

DeepSeek:“专用-通用融合”,通过MoE+RL技术实现任务定向优化(如R1专注推理,V3整合通用能力)。GPT:“规模优先”,依赖参数扩展和通用训练数据提升性能。

2025-04-30 18:05:08 444

原创 深入剖析 MySQL 事务实现机制,结合核心组件和关键技术点,通过技术原理与工程实践结合的方式进行讲解。

实现 **WAL**(Write-Ahead Logging):先写日志后改数据。- **日志格式**:物理逻辑日志(Physical Logical Log)- **Next-Key Lock**:Record + Gap(默认锁算法)- **Undo Log**(撤销日志):实现回滚和 MVCC。- **Redo Log**(重做日志):保证持久性与原子性。- **DB_TRX_ID**(6字节):最近修改事务ID。- **DB_ROLL_PTR**(7字节):回滚指针。

2025-04-30 17:17:04 873 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除