- 博客(41)
- 收藏
- 关注
原创 MoE负载均衡损失 & 梯度累加除法
当这 4 个 Token 经过 MoE 路由器时,路由器会给每个 Token 计算出一个分配概率(总和为 100%)。这会导致优化器步子迈得太大,直接越过最优解,甚至导致模型崩溃(Loss 飞到天上去)。因为当前分配极其不均衡(3个全给了专家1,专家2快饿死了),导致算出来的。假设 4 个专家平分了 Token,大家各自干了 25% 的活。上,与一口气把所有数据塞进显卡算出来的梯度绝对一致,一分不差。这个公式的核心是一个**内积(点乘)**操作。如果分配是完美的(每个专家拿 2 个 Token),
2026-04-15 11:12:12
468
原创 简单理解score based model
在统计学中,分数(Score)被定义为概率密度函数自然对数关于数据样本的梯度。假设真实数据的概率分布为pxp(x)pxsx∇xlogpxsx∇xlogpx如果你把概率分布pxp(x)px想象成一片高低起伏的山脉(数据越密集的地方山越高),那么“分数”sxs(x)sx就是一个向量场。它在空间中的每一点,都指向概率密度增加最快的方向(即指向“山顶”)。Score-based Model 的核心思想是。
2026-02-28 17:05:13
867
原创 具身智能‘Affordance‘理解
这个图能够在 3D 点云中精准定位几何上合理的交互区域,例如识别出杯子的把手、机器的按钮,或者高亮标记出水瓶的瓶盖(提示用于拧开)和瓶身(提示用于握持)。在具身智能(Embodied AI)和手物交互(HOI)的语境下,“affordance”(通常在中文学术界被翻译为“可供性”或“交互可用性”)主要指。:Affordance 能够将人类高层次的、抽象的自然语言意图(例如指令中提到“我渴了”)与物体上具体的、可执行的操作功能联系起来。简单来说,它解决的核心问题是告诉智能体(虚拟手或机器人手臂)“
2026-02-14 16:07:11
370
原创 ExaDigiT/RAPS
灵活性:支持合成工作负载和真实遥测数据回放扩展性:支持多分区系统、冷却模型、网络模拟性能优化:使用NPZ快照加速重复模拟可视化:提供实时监控和后期绘图功能生态系统:支持Docker、第三方调度器、服务器/客户端架构数据多样性:支持多个超算系统的数据格式。
2026-01-05 11:35:44
708
原创 状态价值函数和状态-动作价值函数 定义及区别
状态价值函数 Vπ(s)V_{\pi}(s)Vπ(s) 用来衡量在状态 sss 下,遵循策略 π\piπ 时,代理(agent)从该状态出发能获得的期望回报。定义:Vπ(s)=E[∑t=0∞γtrt∣s0=s,π]V_{\pi}(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, \pi \right]Vπ(s)=E[t=0∑∞γtrt∣s0=s,π]这里的 γ\gammaγ 是折扣因子,rtr_trt
2025-11-17 21:54:59
738
原创 图神经网络应用场景
任务级别目标核心应用场景节点级别预测每个节点的属性/类别社交网络用户分类、引文网络论文分类、欺诈检测边级别预测节点间是否存在边社交推荐、知识图谱补全、药物相互作用预测图级别预测整个图的属性分子属性预测、蛋白质功能预测、代码漏洞检测总而言之,只要你的数据中包含着重要的“关系”或“交互”信息,并且这些信息可以自然地表示为图结构,那么GNN就是一个非常强大和合适的工具。它已经成为分析复杂关系数据的首选深度学习框架。
2025-11-06 09:52:19
1216
原创 加载Qwen预训练模型
文章摘要:作者在使用开源代码下载模型时遇到各种报错和网络问题,即使设置镜像网站也无法解决。尝试了两种方法:1)通过huggingface-cli设置环境变量下载;2)使用huggingface_hub库下载,均未成功。最终改用命令行方式,通过modelscope库成功下载模型到指定路径(默认路径为C盘.cache文件夹)。该方法需先安装modelscope库,再执行下载指令。
2025-10-23 15:17:12
346
原创 临时关闭和启用windows系统防火墙
禁用防火墙:netsh advfirewall set allprofiles state off。启用防火墙:netsh advfirewall set allprofiles state on。按下Win + X键,选择“Windows终端(管理员)”或“命令提示符(管理员)”;打开命令提示符(管理员权限);
2025-10-20 19:11:59
445
原创 量化感知训练硬件实现基本原理
量化感知训练的核心思想是,在训练过程中就模拟量化误差,使得网络能够适应量化后的权重,并在最终应用中仍然保持较好的精度和性能。通过在前向传播时量化权重,并在反向传播中使用直通估计器更新权重,训练得到的量化权重可以有效地用于推理。
2025-10-11 12:39:27
645
原创 非对称量化和对称量化
xintclipsxz02b−11把浮点数先按步长s缩放、再加零点偏移z,最后截断到可表示的整数范围(这里用的是无符号02b−1xsxint−z2把整数还原回近似的浮点值(xszs2b−1xmax−xminz⌊−sxmin⌋3这样选能让xmin约映射到 0、xmax约映射到2b−1,同时保证x0附近对齐到整数z。
2025-08-27 11:08:16
641
原创 深度感知卷积和深度感知平均池化
在深度感知卷积中,模型会根据像素间的深度相似性加权计算卷积操作,以此来保留结构性和细节信息,特别是在深度信息一致的区域。
2025-08-26 15:16:50
673
原创 行缓存(line buffer)在图像卷积中的工作方式
AXI4-Stream 按顺序把新像素从右侧送入(虚线箭头,正在进入的是 23、24、25),缓存里的数据整体向左“移位”。(绿色块),与 3×3 卷积核的 9 个系数并行相乘,再经过加法树求和,得到新的输出像素(图中标成 N2)。此刻选中的 3×3 为像素 {2,3,4 / 11,12,13 / 20,21,22}。一句话:图示的是一个随输入像素流滚动的三行缓存,它不断滑动3×3窗口,支持九值并行乘加,从而高效地产生连续的卷积输出。上半部分是一个按行扫描输入的图像块(示例为 9×9,编号 1–81)。
2025-08-22 11:26:42
678
原创 snn前向推理时间计算(处理器实现)
Tinf=(1−sparsity)×number of synapsesnumber of sub-processors×SIMD waysT_{\text{inf}}=\frac{(1-\text{sparsity})\times \text{number of synapses}}{\text{number of sub-processors}\times \text{SIMD ways}}Tinf=number of sub-processors×SIMD ways(1−sparsity)×
2025-08-20 19:37:13
787
原创 TTFS(Time to First Spike,首脉冲时间编码)
*TTFS(Time to First Spike,首脉冲时间编码)**是一种脉冲神经网络(SNN)的时域编码方式,把输入强度映射为“第一次发放脉冲的时间”。强度越大,越早放电;强度越小,越晚放电,甚至不放电。
2025-08-20 11:24:47
778
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1