- 博客(161)
- 收藏
- 关注
原创 RMSNorm是什么 ?
RMSNorm(Root Mean Square Layer Normalization)是一种轻量级的归一化方法,由 Shen 等人在 2019 年提出,用于替代经典的 LayerNorm。它的核心思想是不再对输入做去均值(centering),而只根据 Root Mean Square(均方根)对特征进行缩放,使得计算更简单、参数更少,同时数值稳定性和性能不降。
2025-06-12 20:57:31
41
原创 DeepSpeed:千亿级大模型训练的超级引擎
"DeepSpeed正在打破算力垄断。当一个拥有2080Ti显卡的学生能在个人电脑训练10B模型,当小型实验室能用32卡集群完成万亿模型训练——这意味着人工智能的研发权力正从巨头向全民转移。选择DeepSpeed的三大理由极致性价比:千倍参数训练,十分之一成本无缝兼容:原生支持PyTorch生态面向未来:已在微软/OpenAI/Meta等千亿级项目验证启程路线图[安装] pip install deepspeed。
2025-06-12 17:35:45
481
原创 区分LayerNorm 与 BatchNorm
BatchNorm:擅长大规模卷积网络,通过跨样本统计降低内部协变量偏移,但依赖 batch、跨位置聚合,不利于序列场景。LayerNorm:在「每个时间步/每个样本」内部对所有特征统一归一化,不依赖其他样本,无需区分训练与推理,天然契合序列模型对「时间步无缝、样本独立」的需求。因此,对于 RNN、Transformer 以及其他需要逐步处理、批大小波动或在线推理的序列模型,LayerNorm 往往是更稳健、更高效的选择。
2025-06-12 17:32:17
358
原创 快速搞懂GRPO(基于与PPO的对比)
在策略梯度方法里,我们希望告诉模型:“在状态 s 下,动作 a 得到的回报,相比平均水平好/差多少?状态 s,选了 a 得到 r=5,下一个状态估计 V(s′)=20,当前状态估计 V(s)=22。你先行动得到即时回报 5 分,然后根据经验网络估计“接下来还能拿 20 分”,合计 25 分,都来自同一个价值网络,只不过一个是“当前时刻的预测”,一个是“下一时刻的预测”。直观地说,就是“实际下一步回报 + 估计的后续回报” 减去 “原本估计的回报”。,把“同一个状态”当成一个“奖励组”来标准化。
2025-06-12 15:34:41
634
原创 快速搞懂DPO
DPO(Direct Preference Optimization)本质上是把「人类偏好」当作一个来做,而不是像 PPO 那样去「采样——估计价值——自举——策略梯度更新」。
2025-06-12 15:18:45
359
原创 ONNX Runtime推理引擎:什么是ONNX与怎么去使用ONNX ?
"ONNX Runtime 正在成为AI世界的'HTTP协议'——它让模型在不同平台间的流动如同信息在互联网中的传输一样自由。通过解耦训练框架与部署环境,开发者终于能够专注于创造价值本身,而非陷于适配不同硬件的泥沼。
2025-06-12 14:48:38
462
原创 TensorRT:深度学习推理的终极加速引擎
处理TensorRT不支持的操作public:// 核心计算方法// CUDA核函数实现return 0;// 必须实现的其他接口...// 注册插件TensorRT的本质是软硬件协同优化的巅峰之作:核心价值:"在AI落地的最后一公里,TensorRT不是可选项,而是必由之路——它将计算效率转化为商业价值,将理论模型变为实时服务。
2025-06-11 21:27:57
577
原创 Population Based Training (PBT):进化算法与深度学习融合的群体智能协作分布式训练范式
是一种将进化算法与分布式训练结合的创新范式。它同时训练多个模型(称为"种群"),在训练过程中实时交换超参数配置并继承参数权重,实现超参数的动态进化。PBT的本质是赋予机器学习自我完善的能力。
2025-06-11 20:56:45
489
原创 Hyperband:超参数优化中的资源动力学革命
是一种基于多臂赌博机理论(Multi-Armed Bandit)的自适应资源分配算法,专门解决高代价评估的超参数优化问题。它通过建立多轮"筛选赛制"(Brackets),动态调配计算资源(如训练周期、数据子集大小)至更有潜力的超参组合,在有限总预算下最大化搜索效率。Hyperband的哲学启示:开发者箴言:"当你的模型训练需要数天时,用Hyperband将优化时间压缩至几小时——这不仅是效率提升,更是研究自由度的质变。
2025-06-11 20:39:07
419
原创 Bayesian Optimization:让复杂优化问题优雅求解
贝叶斯优化的演进呈现三条主线:未来定位:当贝叶斯优化与生成式AI融合,我们将见证自主实验设计时代的到来——科学家设定目标,AI生成实验方案并驱动仪器执行,人类聚焦创造性决策。这种"AI for Science"新范式,正在重新定义科学发现的边界。
2025-06-11 14:29:49
599
原创 Neural Architecture Search (NAS) 深度解剖:神经架构搜索赋予AI自我进化的元智能
核心思想:NAS是让算法自动设计神经网络的技术。就像建筑设计师被AI取代,NAS能在海量可能的网络结构中,智能筛选出最优解。类比理解手工设计神经网络 ≈ 人工设计汽车发动机(耗时数月)NAS ≈ 使用超级计算机模拟测试百万种发动机设计(只需数天)方法类比特点DARTS建筑师的智能绘图软件可微分优化,边设计边调整汽车工厂的柔性产线专门优化Transformer架构变形金刚式的万能车一次训练适应所有设备。
2025-06-10 17:00:40
780
原创 分布式训练双刃剑:Data Parallelism与混合并行的深度解码突破千卡集群训练效率的工程艺术
效率革命:GPT-4级别的训练成本从63M降至21M规模突破:人类首次实现1.8万亿参数模型的可行训练架构创新:混合并行使得训练效率突破Amdahl定律限制2025年分布式训练新范式:算法-架构-硬件的协同进化,正在以每年10倍的速度刷新AI能力的边疆。混合并行不仅是技术方案,更是开启AGI时代的核心密钥。
2025-06-09 19:24:10
677
原创 模型并行(Model Parallelism)深度解析:万亿参数大模型的分布式训练基石
张量并行:把矩阵乘法横切成条,像多人合作拼图流水线并行:将网络层垂直切块,形成计算流水线专家并行:每个设备专注特定"技能领域",像专业化分工工业级训练本质 = 三种并行策略的交响乐编排。以GPT-4为例:40%张量并行 + 30%流水线并行 + 30%专家并行空间维度:通过张量并行将单一计算图切片时间维度:借助流水线并行实现层间时间折叠结构维度:利用专家并行构建动态稀疏网络IF 模型参数 < 50B → 主攻张量并行。
2025-06-09 19:16:00
604
原创 RLHF(Reinforcement Learning from Human Feedback)全过程的详细梳理(PPO近端策略优化)
9. 这一步是怎么做的”把 ℎ 𝑡 (或者对所有位置的 ℎ 𝑖 再做一次处理)用来估计当前生成序列的总体价值 𝑉 ( 𝑠 𝑡 )。
2025-06-09 16:35:24
842
原创 什么是RoPE 与 RoPE插值?
在 RoPE 中,假设你的隐藏维度是 d,你可以把这个向量分成 d/2 对共轭的维度对。因为 RoPE 是通过二维旋转(类似复数旋转)来对向量进行位置编码的,而二维旋转必须用**一对维度(两个数)**来一起完成。
2025-06-09 16:16:16
1097
原创 GraphSAGE:工业级图神经网络的奠基者
GraphSAGE通过三大范式转变重塑图神经网络:理论突破建立归纳式图学习理论框架证明采样聚合的泛化误差边界解决动态图实时推理难题技术革新邻域采样控制计算复杂度多类型聚合器设计框架跨图泛化推理能力分层残差防止梯度消失工业影响Pinterest:30亿节点内容推荐系统阿里巴巴:万亿级商品图谱实时推理腾讯安全:动态IP关系图毫秒级响应蚂蚁金融:异构风控图谱跨域迁移。
2025-06-08 19:52:08
781
原创 Graphormer:图神经网络的结构化革命
Graphormer通过三大革命性创新重塑图神经网络:理论层面突破建立图结构与Transformer的数学映射证明拓扑编码的WL-test等价性解决三维几何信息与离散图的融合难题技术架构创新首创结构化位置编码框架实现边特征与注意力的深度整合构建多尺度图依赖建模能力开发几何感知的连续空间编码应用场景革新药物研发:分子生成成功率提升至92%材料科学:晶体结构预测速度提升100倍社交网络:跨社群影响力建模精度89%交通规划:路网流量预测误差<4%
2025-06-08 10:59:53
932
原创 图注意力网络(GAT):图神经网络的认知革命
图注意力网络通过三大革命性突破重塑图神经网络:理论层面建立动态邻居重要性评估范式证明注意力机制的表达能力等价于Weisfeiler-Lehman测试解决异构图语义融合难题技术层面计算复杂度从O(N²)优化至线性级注意力权重提供模型可解释性突破传统GCN的过平滑瓶颈应用层面生物医药:精确识别药物靶点相互作用社交网络:预测影响力传播路径推荐系统:捕捉用户兴趣迁移规律工业物联网:设备故障关系图谱分析。
2025-06-08 10:49:39
1000
原创 AutoML for Edge:边缘智能的终极进化——自动化网络搜索与硬件协同的革命
AutoML for Edge是一种全栈式自动化机器学习框架,它实现了从神经网络架构搜索到硬件部署的无缝衔接。与传统AutoML相比,其革命性突破在于将芯片物理特性、实时功耗约束和内存带宽限制作为优化目标,生成专为特定边缘设备定制的深度学习模型。这种技术让AI模型在资源受限设备上获得最佳性能,就像为每位运动员量身定制训练计划和装备。
2025-06-08 10:06:22
431
原创 量化感知训练与混合精度量化:深度神经网络的精度-效率平衡艺术
:通过量子化-稀疏化-混合精度三联技术,实现Llama-300B模型在智能手表运行,彻底打破硬件算力藩篱。当前最新进展显示,NVIDIA Blackwell架构支持INT2计算,同精度下能效比提升900%,正加速这一愿景成为现实。,让神经网络在训练过程中"预演"量化效果,通过调整权重分布来主动适应低精度计算环境。,根据各层敏感度动态分配FP16/INT8/INT4等不同精度资源。实验表明INT4模型对抗攻击成功率下降37%当前Swish/GELU量化误差尚无解析解。量化感知训练(QAT)是一种。
2025-06-07 16:58:16
647
原创 低比特量化革命:从FP32到INT4的AI效率跃迁,重塑边缘计算与推理部署
低比特量化(Low-Bit Quantization)是深度学习领域一场静默的效率革命,它将神经网络的"计算语言"从高精度的浮点数(如FP32)精简为高效的整数(如INT8/INT4)。这个过程如同将一部厚重的百科全书压缩成随身携带的摘要手册——保留核心知识,剔除冗余信息,实现更快的访问速度和更低的携带成本。
2025-06-07 16:30:56
704
原创 模型剪枝三剑客:结构化剪枝、非结构化剪枝与SNIP算法深度解析
给定神经网络,剪枝目标是在满足稀疏约束下最小化性能损失:其中是-范数(非零元素计数),k是目标稀疏度。
2025-06-06 17:01:21
1136
原创 ZhipuAI/CogVideoX-5b 文生视频模型部署避坑贴
建议使用modelscope下载模型,如果使用git, 速度会很慢,而且需要使用git lfs install,要先安装git-lfs(下载大文件):使用python=3.11, 如果安装3.12,则在T5tokenizer这个底层依赖处会死活不能安装正确,怎么都报错。:安装依赖千万不能用魔塔官网展示的CogVideoX-5b安装依赖的方法,根本不能运行,会报错。然后使用pip install -r requirements.txt正常安装依赖即可。然后就可以正常使用git clone。
2025-06-06 11:52:16
199
原创 知识蒸馏的艺术:从核心理论到TinyBERT与MobileBERT实践全景
"知识蒸馏不是简单的模型压缩,而是智慧的传承与升华。当TinyBERT以1/7的参数量达到BERT-base 96%的性能时,我们看到的不只是效率提升,更是人工智能模型进化道路上的范式转变。通过知识蒸馏,我们正见证一场深度学习民主化革命——大型模型的智慧正被高效地注入各类终端设备,让每个人都能享受AI进步的红利。这场蒸馏革命,才刚刚启程。,通过训练小型学生模型(Student)来模仿大型教师模型(Teacher)的行为。知识蒸馏(Knowledge Distillation, KD)是一种。
2025-06-06 10:15:29
1092
原创 技术博文:在多任务的海洋中航行——克服灾难性遗忘的艺术
灾难性遗忘是多任务学习道路上不可避免的障碍,但绝非不可逾越。理解其源于优化的本质冲突、表示干扰和容量瓶颈是第一步。上述四类核心策略——参数隔离、正则化约束、经验回放、架构自适应——提供了不同的工具箱。选择最优策略如同调音,需要依据你的具体场景资源限制、任务特性、模型规模和性能目标精心权衡取舍。在人工智能追求更通用、更类人的智能道路上,让模型既博闻强记(不忘旧识),又敏而好学(掌握新知),平衡好“不忘旧”与“学新快” ,无疑是推动技术边界前进的核心挑战与艺术。
2025-06-06 09:37:10
1004
原创 The Neurocomputational Symphony: BPTT vs Online Learning in Continual Neural Plasticity
【代码】The Neurocomputational Symphony: BPTT vs Online Learning in Continual Neural Plasticity。
2025-06-05 19:26:27
699
原创 深度解析梯度热力图:揭秘AI决策黑箱的X光技术
当医生使用X光片诊断疾病时,他们关注的是图像中最关键的病理区域。在人工智能领域,就是这种AI诊断的X光机——它能照亮深度学习模型中最重要的决策区域,让黑箱决策变得透明可视。
2025-06-05 17:31:14
717
原创 手搓一个完整的RAG+Langchain(爬虫版)
它能自动请求网页并提取正文文本(去掉 HTML 标签),返回一个或多个。会把每个 URL 当作一个 Document,自动下载并提取正文。LangChain(>=0.0.x)中提供了一个。
2025-06-05 15:39:02
114
原创 大脑的毫秒级学习密码:STDP(Spike-Timing Dependent Plasticity)如何重新定义神经网络进化法则
STDP是大脑的基本学习算法,它遵循一个简洁而强大的规则:"一起激发的神经元会连接在一起,但先后顺序至关重要"。当一个神经元在另一个神经元之前精确的毫秒时间窗内激发,它们之间的连接会增强;若顺序颠倒,连接则会被削弱。STDP不仅是神经科学皇冠上的明珠,更是开启下一代人工智能的关键密钥。通过探索这一大脑的核心学习机制,我们获得了三大深刻认知:时间即信息:传统AI处理静态数据,而STDP将时间维度作为核心信息载体,解决了动态环境理解的根本挑战。极简主义美学。
2025-06-05 14:26:12
650
原创 LlamaFactory量化与部署Llama3时的报错(基于VLLM部署)
先安装好适配的cuda(我选择的是12.1), 然后环境中的python版本为3.11, pytorch可以先不安装,后面安装llamafactory的时候自动安装适配的pytorch。然后再安装vllm(为了可以正常部署大模型,这个版本是因为与现在的llamafactory版本匹配)一开始会报确实optimum, 这个直接pip安装就好。就可以正常使用llamafactory进行量化与部署了。先安装llamafactory。
2025-06-05 11:09:22
226
原创 使用LlamaFactory中的vLLm加载Llama3的时候报错
报错信息为“ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2704). Try increasing。设置了最大模型长度为4096,这个有的时候会因为硬件原因超出KV缓存的最大长度。然后切换到LlamaFactory根目录下面重启,我这边用的是webui端(需要使用Vscode,因为它自带内网穿透)
2025-06-04 19:16:57
296
原创 云原生:数字生命的进化法则
云原生是让软件像活体生物般运行的革命性方法:"把应用程序拆解为微型独立细胞(容器),在智能血液系统(Kubernetes) 中自主流动,通过神经协同网络(微服务) 应对外界刺激,并能自我修复(自愈)、瞬间分身(弹性伸缩)、不断进化(持续交付)"
2025-06-04 15:23:44
724
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人