- 博客(13)
- 收藏
- 关注
原创 PagedAttention详解
摘要:PagedAttention是vLLM系统中的创新技术,通过借鉴操作系统分页机制优化大语言模型的KV缓存管理。传统KV缓存存在内存碎片化、利用率低等问题,导致GPU内存浪费严重。PagedAttention将KV缓存分块存储,按需动态分配非连续内存块,通过块表实现逻辑连续映射。该技术修改了注意力计算内核,支持分页KV缓存的高效访问,显著提升内存利用率至96%以上。实验表明,相比传统方法,PagedAttention使系统吞吐量提升14-24倍,特别适合处理长序列、大模型和并发请求场景。
2025-10-12 16:45:34
1026
原创 从底层原理到上层应用详细解释模型量化
模型量化技术详解 模型量化是AI领域解决大模型显存和算力挑战的关键技术。随着模型参数规模从亿级增长到万亿级,FP32/FP16精度带来的显存占用和计算成本已难以承受。量化通过将高精度浮点数映射到低精度整数(如INT8/INT4),实现模型压缩和加速。其核心公式为x_int=round(x_float/scale)+zero_point,通过scale和zero_point调整数值范围。量化分为训练后量化(PTQ)和量化感知训练(QAT)两种主要方法,可带来显存节省50-75%、推理速度提升1.5-3倍、能耗
2025-09-09 11:06:32
908
2
原创 RAG-Fusion详细介绍
在大语言模型(LLM)驱动的应用浪潮中,检索增强生成(Retrieval-Augmented Generation, RAG) 技术已成为连接模型与海量外部知识的桥梁,极大地提升了AI生成内容的事实性和准确性。但是,传统的RAG也有缺陷,它在面对用户意图模糊或表达方式多样的查询时,常常会遇到瓶颈。不过幸运的是,有人提出了RAG-Fusion这一技术,可以很大成大的改善这种困境。本文将从底层原理到实战应用,详细的介绍RAG-Fusion。
2025-08-21 19:49:48
919
原创 在windows平台上基于OpenHarmony sdk编译三方库并暴露给ArkTS使用(详细)
本文记录了将FreeType库移植到鸿蒙系统的完整过程。作者首先在Windows环境下配置HarmonyOS SDK,通过CMake编译FreeType为动态库。随后创建Native工程,将编译好的库集成到项目中,并开发了文字渲染为PNG图片的功能(使用stb_image_write库)。文章详细探讨了应用沙箱目录与rawfile目录的区别,解释了为何需要将字体文件从rawfile复制到沙箱目录。最后,作者发现直接使用Base64编码渲染大尺寸图片存在问题,转而采用从沙箱加载图片文件的解决方案。整个过程涉及
2025-07-17 16:23:41
1476
原创 数据预处理-BoxCox变换详解
摘要:本文探讨了线性回归模型预测效果不佳时的一个常见原因——数据偏态问题。当数据呈现右偏态时,会导致残差分布不均和异质变异数,影响模型准确性。文章介绍了Box-Cox变换这一解决方案,它能通过幂次参数λ自动调整数据分布,使其更符合线性模型的假设条件。针对包含零值的数据,推荐使用BoxCox1p(数据+1)变换方法。文章还通过Python代码演示了变换过程,展示了变换前后数据分布的变化,并讨论了Box-Cox变换的最佳适用场景和局限性,如对树模型无效、影响可解释性等。最后指出对于负数数据应改用Yeo-John
2025-07-17 16:23:18
1303
原创 LoRA微调GPT2模型
《LoRA微调技术解析与实践》 摘要:本文介绍了参数高效微调方法LoRA(Low-Rank Adaptation)的原理与应用。针对传统微调面临的高资源消耗问题,LoRA通过在原始模型权重旁添加两个可训练的低秩矩阵,仅需微调少量参数(实验显示仅1.56%)即可获得良好效果。文章详细阐述了LoRA的技术实现,包括冻结原始权重、低秩矩阵乘积计算和缩放因子设计。通过中文诗歌数据集对GPT2模型进行微调的实践表明,LoRA在保持模型性能的同时显著降低了训练成本(可训练参数仅162万,占总参量1.56%),并展示了实
2025-07-10 14:09:29
873
原创 TextCNN + Attention实现情感分类(实战)
本文介绍了一个基于TextCNN和Attention机制的文本分类系统实现方案。该系统采用预训练GloVe词向量增强语义理解,通过数据预处理、词表构建、序列填充等步骤将文本转化为模型可处理的形式。模型架构融合了多头注意力机制和多尺度卷积,并采用冻结词向量层、学习率调度、梯度裁剪等技术优化训练过程。实验表明,该系统在文本分类任务中表现良好,具有实用性和扩展性,支持日志记录、TensorBoard可视化等功能,适用于情感分析、舆情监测等多种场景。
2025-07-03 15:16:01
1088
原创 Transformer:Positional Encoding
目录一、为什么需要位置编码?1.1 问题背景1.2 深层分析1.2.1 丧失顺序信息1.2.2 语义信息的丢失1.2.3 无法区分长短依赖1.2.4 模型的性能下降1.3 Solution二、位置编码长什么样三、具体数值例子四、这样做的好处是什么?4.1 Why?4.2 如何实现推断更长序列的能力?4.3 举个例子五、位置编码是怎么加进去的?六、相对 vs 绝对位置编码6.1 绝对位置编码(Absolute Positional Encoding)6.2 相对位置编码 6.3 对比七、相对位置的实现7.1
2025-04-18 11:08:20
1660
原创 详解XGBoost
二阶展开的意义:不仅知道偏离方向,还预判偏离速度,比只用一阶信息(普通导航)能更快到达目的地。核心问题:当数据集超过内存容量时,传统算法无法运行(比如100GB数据集+32GB内存时)扣分项(Loss Term):每题预测答案与实际答案的差距(如数学题答案偏差)优化目标:在准确答题(降低预测误差)和保持简介(防止过拟合)之间找到最佳平衡。:同时提示"每走100米偏差增加10米"(二阶曲率信息): 导航提示"向东偏差500米“(一阶方向指引): 答案写的越复杂扣分越多(防止过度推导)分(防止过度使用工具)
2025-03-18 16:47:42
1035
原创 深度解构L1/L2正则化
当模型在训练集上表现优异而在测试集上性能骤降时,往往意味着过度记忆了训练数据中的噪声而非学习到本质规律(有时也可能是因为数据不匹配的原因)。健身人员希望最大化训练效果,但受限于每日1小时的总时间,需分配力量训练(x分钟)和有氧运动(y分钟)其核心思想是:在最小化原始损失函数的同时,对模型参数施加惩罚,迫使模型趋向于更简单的结构。这相当于在预算限制的边界上寻找装修效果的最大值,类似于在消费能力边缘找到性价比最高的组合。假设你需要用有限的预算购买地板和墙漆,目标是再满足总预算的前提下最大化装修效果。
2025-03-05 20:18:02
2577
1
原创 深入浅出揭秘特征缩放
特征缩放是将不同量纲或范围的特征数据,通过数学变换映射到统一量纲区间(通常为[0, 1]或[-1, 1]的过程)。类比:把不同货币统一换算成人民币,让所有特征站在同一起跑线上目标说明类比消除量纲差异让kg和cm等不同单位具有可比性把人民币和美元换算成黄金平衡特征权重防止大范围特征(如薪资)压制小范围特征(如年龄)拳击比赛按照选手的体重分级加速模型收敛优化损失函数形状把崎岖山路("之字形")改造成高速公路方法公式适用场景坑点预警Z-Score。
2025-02-27 09:06:14
2355
原创 头节点初始化的致命陷阱
给定一个包含K个升序链表的数组,要求将所有链表合并成一个升序链表。例如:输入: lists = [[1,4,5], [1,3,4], [2,6]]输出: [1,1,2,3,4,4,5,6]题目链接:合并K个升序链表合并K个链表的核心思路是合并两个链表合并K个链表(链式调用)
2025-02-24 08:46:32
982
原创 训练误差的“欺骗性“
训练误差(Trainging Error):模型在训练数据集上的预测误差泛化误差(Generalization Error):模型在未知数据集上的期望误差,反映真实应用效果模型在训练集上表现极佳,但过度记忆了训练数据中的噪声和异常值,导致无法适应新数据经典比喻:学生A在考前死记硬背了100道题的答案(训练集),但遇到新题型(测试集)时完全不会——这就是过拟合。
2025-02-19 10:52:55
1253
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅