NoirSeeker-CSDN博客

原创 PagedAttention详解

摘要：PagedAttention是vLLM系统中的创新技术，通过借鉴操作系统分页机制优化大语言模型的KV缓存管理。传统KV缓存存在内存碎片化、利用率低等问题，导致GPU内存浪费严重。PagedAttention将KV缓存分块存储，按需动态分配非连续内存块，通过块表实现逻辑连续映射。该技术修改了注意力计算内核，支持分页KV缓存的高效访问，显著提升内存利用率至96%以上。实验表明，相比传统方法，PagedAttention使系统吞吐量提升14-24倍，特别适合处理长序列、大模型和并发请求场景。

2025-10-12 16:45:34 1026

原创从底层原理到上层应用详细解释模型量化

模型量化技术详解模型量化是AI领域解决大模型显存和算力挑战的关键技术。随着模型参数规模从亿级增长到万亿级，FP32/FP16精度带来的显存占用和计算成本已难以承受。量化通过将高精度浮点数映射到低精度整数（如INT8/INT4），实现模型压缩和加速。其核心公式为x_int=round(x_float/scale)+zero_point，通过scale和zero_point调整数值范围。量化分为训练后量化(PTQ)和量化感知训练(QAT)两种主要方法，可带来显存节省50-75%、推理速度提升1.5-3倍、能耗

2025-09-09 11:06:32 908 2

原创 RAG-Fusion详细介绍

在大语言模型（LLM）驱动的应用浪潮中，检索增强生成（Retrieval-Augmented Generation, RAG) 技术已成为连接模型与海量外部知识的桥梁，极大地提升了AI生成内容的事实性和准确性。但是，传统的RAG也有缺陷，它在面对用户意图模糊或表达方式多样的查询时，常常会遇到瓶颈。不过幸运的是，有人提出了RAG-Fusion这一技术，可以很大成大的改善这种困境。本文将从底层原理到实战应用，详细的介绍RAG-Fusion。

2025-08-21 19:49:48 919

原创在windows平台上基于OpenHarmony sdk编译三方库并暴露给ArkTS使用（详细）

本文记录了将FreeType库移植到鸿蒙系统的完整过程。作者首先在Windows环境下配置HarmonyOS SDK，通过CMake编译FreeType为动态库。随后创建Native工程，将编译好的库集成到项目中，并开发了文字渲染为PNG图片的功能（使用stb_image_write库）。文章详细探讨了应用沙箱目录与rawfile目录的区别，解释了为何需要将字体文件从rawfile复制到沙箱目录。最后，作者发现直接使用Base64编码渲染大尺寸图片存在问题，转而采用从沙箱加载图片文件的解决方案。整个过程涉及

2025-07-17 16:23:41 1476

原创数据预处理-BoxCox变换详解

摘要：本文探讨了线性回归模型预测效果不佳时的一个常见原因——数据偏态问题。当数据呈现右偏态时，会导致残差分布不均和异质变异数，影响模型准确性。文章介绍了Box-Cox变换这一解决方案，它能通过幂次参数λ自动调整数据分布，使其更符合线性模型的假设条件。针对包含零值的数据，推荐使用BoxCox1p（数据+1）变换方法。文章还通过Python代码演示了变换过程，展示了变换前后数据分布的变化，并讨论了Box-Cox变换的最佳适用场景和局限性，如对树模型无效、影响可解释性等。最后指出对于负数数据应改用Yeo-John

2025-07-17 16:23:18 1303

原创 LoRA微调GPT2模型

《LoRA微调技术解析与实践》摘要：本文介绍了参数高效微调方法LoRA(Low-Rank Adaptation)的原理与应用。针对传统微调面临的高资源消耗问题，LoRA通过在原始模型权重旁添加两个可训练的低秩矩阵，仅需微调少量参数（实验显示仅1.56%）即可获得良好效果。文章详细阐述了LoRA的技术实现，包括冻结原始权重、低秩矩阵乘积计算和缩放因子设计。通过中文诗歌数据集对GPT2模型进行微调的实践表明，LoRA在保持模型性能的同时显著降低了训练成本（可训练参数仅162万，占总参量1.56%），并展示了实

2025-07-10 14:09:29 873

原创 TextCNN + Attention实现情感分类（实战）

本文介绍了一个基于TextCNN和Attention机制的文本分类系统实现方案。该系统采用预训练GloVe词向量增强语义理解，通过数据预处理、词表构建、序列填充等步骤将文本转化为模型可处理的形式。模型架构融合了多头注意力机制和多尺度卷积，并采用冻结词向量层、学习率调度、梯度裁剪等技术优化训练过程。实验表明，该系统在文本分类任务中表现良好，具有实用性和扩展性，支持日志记录、TensorBoard可视化等功能，适用于情感分析、舆情监测等多种场景。

2025-07-03 15:16:01 1088

原创 Transformer：Positional Encoding

目录一、为什么需要位置编码？1.1 问题背景1.2 深层分析1.2.1 丧失顺序信息1.2.2 语义信息的丢失1.2.3 无法区分长短依赖1.2.4 模型的性能下降1.3 Solution二、位置编码长什么样三、具体数值例子四、这样做的好处是什么？4.1 Why？4.2 如何实现推断更长序列的能力？4.3 举个例子五、位置编码是怎么加进去的？六、相对 vs 绝对位置编码6.1 绝对位置编码（Absolute Positional Encoding）6.2 相对位置编码 6.3 对比七、相对位置的实现7.1

2025-04-18 11:08:20 1660

原创详解XGBoost

二阶展开的意义：不仅知道偏离方向，还预判偏离速度，比只用一阶信息（普通导航）能更快到达目的地。核心问题：当数据集超过内存容量时，传统算法无法运行（比如100GB数据集+32GB内存时）扣分项（Loss Term）：每题预测答案与实际答案的差距（如数学题答案偏差）优化目标：在准确答题（降低预测误差）和保持简介（防止过拟合）之间找到最佳平衡。:同时提示"每走100米偏差增加10米"（二阶曲率信息）: 导航提示"向东偏差500米“（一阶方向指引）: 答案写的越复杂扣分越多（防止过度推导）分（防止过度使用工具）

2025-03-18 16:47:42 1035

MrJoice的博客

原创 PagedAttention详解

原创从底层原理到上层应用详细解释模型量化

原创 RAG-Fusion详细介绍

原创在windows平台上基于OpenHarmony sdk编译三方库并暴露给ArkTS使用（详细）

原创数据预处理-BoxCox变换详解

原创 LoRA微调GPT2模型

原创 TextCNN + Attention实现情感分类（实战）

原创 Transformer：Positional Encoding

原创详解XGBoost

原创深度解构L1/L2正则化

原创深入浅出揭秘特征缩放

原创头节点初始化的致命陷阱

原创训练误差的“欺骗性“

空空如也

空空如也