- 博客(770)
- 资源 (5)
- 收藏
- 关注
原创 RankMixer论文理解
RankMixer主要是为了解决传统模型基于CPU时代设计模型MFU计算低效,不能很好的进行模型ScalingLaw扩展的问题。算法通过两步运算TokenMixing和PFFN,将特征在mixing阶段进行充分的混合,然后在PFFN阶段进行每个混合Token充分的交叉学习,可以学习出更多的高阶特征。
2026-03-30 21:12:30
239
原创 relu激活函数为什么有效
ReLU(Rectified Linear Unit)之所以有效,核心原因可以用一句话概括:它简单、计算快、能缓解梯度消失,还天然带来稀疏性,非常适合深度神经网络。
2026-03-30 20:24:32
45
原创 PPO算法原理
核心目标:解决传统策略梯度 “更新幅度不可控” 的问题,通过 Clip 操作限制新 / 旧策略的差异;稳定关键:用 GAE 计算优势函数,平衡方差和偏差,让训练更稳定;效率关键:多轮 Epoch 训练同一批数据,提升数据利用率;实现核心:Clip 操作(限制策略更新比例)+ 同时优化策略 / 值函数 + 熵奖励(鼓励探索);RLHF 适配:奖励由 “人类反馈(奖励模型)+ KL 惩罚” 组成,避免模型生成无意义内容。
2026-03-18 21:42:44
389
原创 RoPE 算法原理?算法为什么只和相对位置有关
RoPE的核心作用:给LLM的token特征向量注入相对位置信息,解决传统位置编码长序列泛化差的问题;核心原理:通过对特征向量做“旋转操作”,让Attention内积只依赖token间的相对位置,旋转角度由「位置ID × 逆频率」计算;核心优势:相对位置感知、超长上下文泛化、无额外参数、计算高效,成为LLaMA/Qwen等主流LLM的标配位置编码方案。绝对位置:token 的位置是 “孤立的”(比如 pos=3 就是第 3 个 token,和其他 token 无关);
2026-03-13 15:06:34
420
原创 slice作用
创建slice对象:start=起始索引,stop=结束索引,step=步长(都可选)start:默认 None(从开头开始)stop:必填(切到该索引前停止,不包含)step:默认 None(步长为 1)slice 是 Python 内置类,用来定义「切片规则」(start/stop/step),a[start:stop:step] 本质是创建了 slice 对象;
2026-03-12 20:20:48
392
原创 rankerMixer为什么能提升系统的MFU
通过无参数 Token Mixing、大 GEMM 主导的 PFFN、语义化分词的架构创新,从根源消除传统模型的碎片化计算和显存密集型操作,让模型计算天然适配 GPU 的并行特性;再通过核融合、参数量与 FLOPs 解耦、资源瓶颈转移的工程优化,将 GPU 的计算资源从显存 IO 的闲置状态中释放,最终实现模型从 “显存受限” 到 “计算受限” 的转变,让 MFU 实现 10 倍的跨越式提升。
2026-03-11 21:41:19
368
原创 OneSearch 论文内容总结
针对传统电商搜索多阶段级联架构(MCA) 存在的计算碎片化、跨阶段优化目标冲突、冷启动处理能力弱等痛点,快手团队提出OneSearch—— 首个工业级部署的电商搜索端到端生成式框架,该框架核心包含关键词增强的分层量化编码(KHQE) 模块、多视图用户行为序列注入策略、偏好感知奖励系统(PARS) 三大创新,并搭建了统一编解码架构,通过大规模离线评估和快手平台严格的线上 A/B 测试验证了其有效性,线上实现 +1.67% 商品 CTR、+2.40% 购买人数、+3.22% 订单量的显著提升,同时将运营成本降低
2026-03-04 21:07:37
335
原创 优化器状态也放 CPU(CPUOffload)具体做法
核心逻辑:优化器状态(m/v)放 CPU,更新时临时传 GPU,更新后传回 CPU,全程不影响梯度计算的正确性;实现方式:优先用 fairscale 的 CPUOffloadOptimizer(开箱即用),定制化需求可手动实现(核心是状态的 CPU-GPU 按需传输);兼容性:完全兼容你「边算梯度边更新权重」的思路,只需保证更新时用的是后一层的原始权重,Offload 仅改变状态的存储位置。
2026-02-26 11:58:12
552
原创 LLM基座发展动向(2026最新·详细版)
核心结论:从参数竞赛→效率革命;从单模态→原生多模态;从静态生成→动态推理/记忆/Agent化;从通用→垂直/轻量化,四大主线并行演进。LLM基座发展动向(2026最新·详细版)
2026-02-13 14:07:55
426
原创 10 年后 AGI 能否出现?将如何影响人类生活?
10 年后(2036 年)出现初级 AGI 的可能性较大,但实现完全人类水平 AGI 仍存巨大不确定性。
2026-01-21 19:49:24
1550
原创 Qwen 3 技术解析:通过强化学习和思维模式融合提升模型对齐
今天为大家分享近期阿里发布的Qwen3技术报告,特别是Qwen3如何通过一系列精密的后训练(Post-training)过程,从一个强大的基础模型,蜕变成一个更加智能、灵活、且与人类偏好高度对齐的助手。这就像是给大模型装上了“智慧大脑”和“沟通桥梁”的升级过程。
2026-01-21 15:11:25
634
原创 用矩阵实例具象化 RankMixer 核心机制
结合文档中 100M 参数模型的典型配置(T=16 个特征 Token、D=768 隐藏维度、H=16 个头),通过具体矩阵维度和运算过程,拆解 RankMixer 核心模块的矩阵操作逻辑,让抽象架构落地为可感知的数值流程。
2026-01-14 21:58:44
994
原创 BLEU计算原理
计算高效、完全自动化:无需人工参与,适合大规模生成任务的快速评估(如 LLM 批量生成广告文案);可解释性强:n-gram 匹配直接反映文本的词汇和短语重合度,与人类对「流畅度」的直觉部分契合;支持多参考文本:可输入多份人工参考文本(如同一广告卖点的不同表述),提升评估准确性。BLEU 是文本生成任务的基础自动评估指标,核心通过 n-gram 匹配度衡量生成文本与人工参考文本的相似度,同时惩罚短文本。
2026-01-13 21:48:56
1038
原创 理解ppl指标
直观理解:PPL 是模型预测下一个 token 的「平均困惑程度」,越低说明模型越 “确定”,语言建模能力越强;本质理解:PPL 是平均交叉熵损失的自然指数,是为了直观对比而做的指标转换,二者趋势完全一致;实用理解:PPL 是 “相对对比指标”,需在同一独立测试集上使用,过滤无效 token,且不能作为唯一评估标准,需结合下游任务指标。
2026-01-13 21:20:42
727
原创 SLMRec 论文中解决Dnorm损失多层收敛不稳定的「核心 3 个技术方案」(论文原文答案,全部是技术亮点)
SLMRec 通过分块层对齐 + 教师特征 Detach 冻结 + 分层衰减权重 λ₂,解耦多层梯度冲突,固定拟合锚点,平衡层间收敛节奏,彻底解决 D_norm 多层收敛不稳问题。
2026-01-07 16:02:22
649
原创 SLMRec 详细介绍(重点:损失函数)
SLMRec 是面向序列推荐(SR) 的小语言模型,核心目标是解决大语言模型(LLM)在序列推荐中参数冗余、部署低效的问题。其核心思路是通过分层知识蒸馏,将深层 LLM(教师模型)的关键知识迁移到浅层小模型(学生模型),仅用 LLM 类推荐模型 13% 的参数,就实现了相当甚至更优的性能,同时训练 / 推理速度分别提升 6.6 倍和 8.0 倍。模型采用师生架构:教师模型为深层 LLM(如 LLaMa-7B),学生模型为同隐藏维度的浅层 LLM;
2026-01-04 15:56:10
374
原创 qwen3 训练loss 出现nan
在 Qwen3 的训练 / 微调过程中,loss 变为 NaN(Not a Number,非数字) 是数值计算完全失效的核心标志,意味着模型在损失函数计算、梯度传播环节出现了无法被计算机解析的无效数值运算—— 这不是 “模型学不好(loss 高)”,而是 “训练流程本身崩溃”,继续训练会导致参数更新完全失效(参数也会变成 NaN),必须立即停止并排查问题。
2025-12-29 21:06:02
792
原创 训练时开启 KV 缓存会和is_causal=False 冲突
KV 缓存与 is_causal=False 冲突的本质是:KV 缓存的设计根基是「因果掩码(is_causal=True)+ 逐 token 生成」,而 is_causal=False 打破了 “因果限制”,且训练场景本身无需 KV 缓存,两者从逻辑、维度、场景上完全不兼容。对于你的核心需求(训练 Qwen3 时禁用因果掩码),训练阶段必须禁用 KV 缓存(这也是行业通用做法);若需推理时禁用因果掩码,同样要关闭 KV 缓存,或改用全序列一次性输入的推理方式(而非逐 token 生成)。
2025-12-29 17:09:39
621
原创 大语言Qwen3模型QA训练数据如何生成
对 Qwen3 等 Decoder-only 模型而言,QA 数据输入构造的本质是“将问答对转换为符合对话模板的连续序列,通过 labels 屏蔽实现‘根据 Question 生成 Answer’的训练目标”,这是实现高质量问答能力的基础。
2025-12-29 12:07:09
827
原创 scaled_dot_product_attention实现
SDPA 是 Transformer 注意力机制的核心,公式如下:关键要素:以下是纯 PyTorch 手动实现的 SDPA,包含缩放、注意力掩码、因果掩码核心逻辑,注释详细且适配新手理解:手动实现的测试示例(模拟 Qwen3 单 head 场景)mask作用mask主要是屏蔽掉attention矩阵无效的权重,
2025-12-26 16:43:03
434
原创 大语言模型要用分组注意力机制GQA
对 Q:保留足够多的 head,保证细粒度的语义查询能力,适配中文的复杂语义;对 K/V:减半 head 数,大幅降低显存占用和计算成本,满足线上推理的效率需求。该设计是 “性能不降级(或轻微降级)、效率大幅提升” 的最优解,也是 Qwen3 相比纯 MHA/MQA 模型,在产业落地中更具竞争力的核心原因之一。
2025-12-26 16:03:02
932
原创 大语言模型在线推理过程
大语言模型(如 Qwen3)的输出过程本质是基于自回归机制的逐 token 生成循环,从 “输入预处理” 到 “最终文本输出” 可拆解为「预处理→初始化→逐 token 生成→后处理」四大阶段,每个阶段都对应具体的张量计算、缓存更新和采样逻辑。
2025-12-25 21:20:46
595
原创 Mobile ALOHA 简介
最近这几天,在机器人领域最火的一个话题,非Mobile ALOHA项目莫属了。不管是在Youtube,科技网站,还是国内微信公众号视频号,到处都能看到Mobile ALOHA相关的报道和视频。我也跟着这股热潮,深入了解了一下Mobile ALOHA,整理出来一些内容,跟大家一起学习分享。Mobile ALOHA(一种用于双手远程操作的低成本开源硬件系统),主要解决了机器人训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。它的成本只是现成系统的一小部分,并且可以从少至 50 次的人类演示中学习。
2024-10-18 20:31:04
1898
1
原创 深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点
激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。
2024-02-27 21:53:36
1536
原创 Pytorch卷积层原理和示例 nn.Conv1d卷积 nn.Conv2d卷积
一,前提二,卷积层原理1.概念2.作用3. 卷积过程三,nn.conv1d1,函数定义:2, 参数说明:3,代码:4, 分析计算过程四,nn.conv2d1, 函数定义2, 参数:3, 代码4, 分析计算过程在开始前,要使用pytorch实现以下内容,需要掌握tensor和的用法卷积层是用一个固定大小的矩形区去席卷原始数据,将原始数据分成一个个和卷积核大小相同的小块,然后将这些小块和卷积核相乘输出一个卷积值(注意这里是一个单独的值,不再是矩阵了)。特征提取卷积的本质就是用卷积核的
2024-02-05 20:43:33
3596
原创 绘制频率分布直方图的三种方法,总结的很用心
直方图能帮助迅速了解数据的分布形态,将观测数据分组,并以柱状条表示各分组中观测数据的个数。简单而有效的可视化方法,可检测数据是否有问题,也可看出数据是否遵从某种已知分布。本次案例通过生成深圳市疫情个案数据集中所有患者的年龄参数直方图。分别使用Matplotlib、Pandas、Seaborn模块可视化Histogram。其中,Matplotlib和Pandas样式简单,看上去吸引力不大。Seaborn可往单变量直方图上添加很多东西,更美观,pandas可成组生成直方图。
2024-02-04 11:31:00
7618
原创 Tensorflow 中的损失函数 —— loss 专题汇总
标准的损失函数并不合适所有场景,有些实际的背景需要采用自己构造的损失函数,Tensorflow 也提供了丰富的基础函数供自行构建。例如下面的例子:当预测值(y_pred)比真实值(y_true)大时,使用 (y_pred-y_true)*loss_more 作为 loss,反之,使用 (y_true-y_pred)*loss_lesstf.greater(x, y):判断 x 是否大于 y,当维度不一致时广播后比较。
2024-01-24 21:49:46
3963
1
原创 「2023 | 快手」PEPNet:融合个性化先验信息的多场景多任务网络
之前梳理过多场景建模方法:推荐系统(二十四)「知识梳理」多场景建模梳理,现在介绍快手提出的多场景多任务方法PEPNet。From: 2023 快手。
2024-01-18 16:05:49
5495
原创 端智能在大众点评搜索重排序的应用实践
端智能重排序是大众点评搜索在边缘计算方向的一次探索实践,并且在核心指标上取得了较为显著的效果。通过利用端上计算的能力,更高效地捕捉用户的实时兴趣偏好,弥补云端服务决策延迟、用户反馈信息获取延迟等问题。及时调整未曝光候选结果的顺序,把更符合用户意图的商户排上来,从而带来更好的用户搜索触达体验。同时,我们对前后端训练、部署预估框架进行了升级,为后续进一步快速迭代实验奠定了良好的基础。
2024-01-16 21:36:25
1921
1
原创 推荐系统模型(一) DFN 详解 Deep Feedback Network for Recommendation
在大多数的推荐系统中,往往注重于隐式正反馈(例如:点击),而忽略掉用户的其他行为(例如大多数CTR模型只考虑用户的喜欢,而忽略了不喜欢)。腾讯在Deep Feedback Network for Recommendation 一文中,提出了一个新颖的推荐系统模型,该模型使用了一个新的神经网络框架,考虑了,通过大量的实验证实了该模型的有效性和鲁棒性。
2024-01-16 20:41:21
3094
原创 大模型在广告ctr预估中的应用
预训练大模型在ctr预估方面取得了不错的效果,但是应用大模型方面还主要停留在提取离线预训练,然后使用大模型的打分结果或者中间的embedding向量,这种级联的应用方式相对灵活方便。但是这种使用大模型提取特征的方式存在自身的问题,那就是通过独立训练得到的特征,对于最终的ctr模型来说不是最优的。主要原因是预训练的大模型和ctr模型存在不对齐的问题,造成大模型提取的特征存在冗余重叠的情况。为了解决这个问题,微软ad团队提出了预训练+联合学习和蒸馏学习的方式,对大模型进行端到端的应用,从而返回大模型真正的威力。
2024-01-11 20:12:02
1164
原创 NLP技术在搜索推荐场景中的应用
本文主要介绍了NLP技术在搜索推荐场景中的应用。在搜索推荐中,文本信息是很常见的一种信息来源,因此如何利用文本信息提升CTR预估、推荐等模型效果,以及如何利用NLP技术解决相关性问题,都是搜推广场景中很有价值的研究点。
2024-01-10 18:55:29
1244
原创 互联网广告行业发展历程
1994年全球第一个互联网广告诞生。1995年左右是互联网大众化的启蒙期,也开启了门户广告时代。这个阶段互联网用户规模有限,广告主对互联网的认知也较弱,尝鲜者并不多。电视、报纸、广播、户外等仍是广告主流媒体。由于媒体特点、流量规模、交易成本等的限制,当时的流量通常是打包售卖的,CPM、CPT是主流。广告销售顾问提前与客户确定广告位置、广告内容、广告展示时间,媒体在相应的时间展示广告。随着雅虎、谷歌等搜索引擎的发展,互联网广告有了第一次革命性变化。
2024-01-05 21:15:10
1525
原创 一文快速了解oCPX
o是Optimized,优化一词的首字母。CPX即Cost Per X,“X”即泛指传统的那些按不同方式进行结算的模式,如:CPC(Cost Per Click,按点击付费)、CPM(Cost Per Mille,按千次曝光付费)、CPA(Cost Per Action,按转化效果付费(转化效果例如:表单留销售线索、App下载安装、新注册用户、领优惠劵、加购物车、甚至下单等))等;
2023-12-19 11:36:34
5927
原创 当大语言模型遇见广告:新变革还是新泡沫?
人工智能可能从未受到过如此之高的关注度。2022年11月30日,OpenAI正式发布了ChatGPT,它是一款基于GPT3.5架构 1 进行训练的人工智能聊天机械人。ChatGPT像是一个全能的人,无论是有关文化、历史、艺术还是科技和商业的问题,它都能给出有理有据的回答。因此,相比传统搜索引擎,ChatGPT显然更加易用,这给搜索引擎的广告带来了直接的冲击。
2023-12-13 17:49:51
1148
原创 传谷歌拟在广告中使用新AI模型,并为YouTuber提供建议
据内部文件显示,该公司已经批准了在大型语言模型(LLM)的推动下,使用生成式人工智能来自动化广告和广告支持的消费者服务的计划。值得一提的是,谷歌最近提供了 Google Duet 和 Google Chat 帮助,允许人们使用简单的自然语言来获得与云相关的问题的答案,例如如何使用某些云服务或功能,或者为他们的项目获得详细的实施计划。现如今,随着人工智能聊天机器人的热潮迅速席卷整个科技行业,并吸引了华尔街的关注,谷歌及其同行,包括微软 Meta 和亚马逊,正急于将自己最复杂的模型嵌入尽可能多的产品中。
2023-12-13 16:08:06
586
原创 语义搜索与LLM可以做些什么
然而,随着语义搜索的引入,搜索的体验类似于与朋友交谈,让搜索结果得到了显著的改善。这种新的方法可以根据单词和句子的含义进行搜索,而不仅仅是特定的术语,从而产生更准确的播客搜索体验。包括利用他们的一体化播客创作应用程序Anchor的语义搜索,以增强播客API和使用自然语言的播客搜索功能。虽然Stack Overflow在最近在其搜索中集成了语义模型,但早在去年ChatGPT在互联网上名声大开时,就有一些人预测语义搜索与语言模型结合的方式可以成为实现更好的搜索体验的合适方法。但谷歌并不是唯一一家这样做的公司。
2023-12-13 15:49:01
669
数据库课程设计-图书馆信息管理系统
2011-05-18
数据结构试验 山东大学
2011-05-19
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅