ICscholar-CSDN博客

原创推荐系统常用指标NDCG含义及公式

NDCG（Normalized Discounted Cumulative Gain，归一化折损累计收益）是信息检索和推荐系统中最核心的评价指标之一。在评估基于大语言模型的重排（Re-ranking）或召回系统时，单纯依靠命中率（Hit Rate）往往不够，因为我们需要衡量。→→→。

2026-04-19 19:32:50 459

原创 Agentic RL与LLM Post-training RL算法的区别

这里的 RL 是在**微观层面（Token-level）**雕琢模型的权重，让它“说得更好”、“想得更深”。

2026-04-19 15:51:09 512

当这 4 个 Token 经过 MoE 路由器时，路由器会给每个 Token 计算出一个分配概率（总和为 100%）。这会导致优化器步子迈得太大，直接越过最优解，甚至导致模型崩溃（Loss 飞到天上去）。因为当前分配极其不均衡（3个全给了专家1，专家2快饿死了），导致算出来的。假设 4 个专家平分了 Token，大家各自干了 25% 的活。上，与一口气把所有数据塞进显卡算出来的梯度绝对一致，一分不差。这个公式的核心是一个**内积（点乘）**操作。如果分配是完美的（每个专家拿 2 个 Token），

2026-04-15 11:12:12 640

原创简单理解score based model

在统计学中，分数（Score）被定义为概率密度函数自然对数关于数据样本的梯度。假设真实数据的概率分布为pxp(x)pxsx∇xlog⁡pxsx∇xlogpx如果你把概率分布pxp(x)px想象成一片高低起伏的山脉（数据越密集的地方山越高），那么“分数”sxs(x)sx就是一个向量场。它在空间中的每一点，都指向概率密度增加最快的方向（即指向“山顶”）。Score-based Model 的核心思想是。

2026-02-28 17:05:13 895

原创 Huggingface下载数据集

遇到问题: 无法通过git clone的方式成功下载，因此尝试使用脚本下载。注意，使用国内镜像进行加速。

2026-02-27 18:13:20 334

原创扩散模型在具身模型预测中的作用

直接学习干净序列，模型是在**“死记硬背答案”

2026-02-19 16:01:33 577

原创具身智能‘Affordance‘理解

这个图能够在 3D 点云中精准定位几何上合理的交互区域，例如识别出杯子的把手、机器的按钮，或者高亮标记出水瓶的瓶盖（提示用于拧开）和瓶身（提示用于握持）。在具身智能（Embodied AI）和手物交互（HOI）的语境下，“affordance”（通常在中文学术界被翻译为“可供性”或“交互可用性”）主要指。：Affordance 能够将人类高层次的、抽象的自然语言意图（例如指令中提到“我渴了”）与物体上具体的、可执行的操作功能联系起来。简单来说，它解决的核心问题是告诉智能体（虚拟手或机器人手臂）“

2026-02-14 16:07:11 391

原创 ROC曲线解读

ROC曲线解读

2026-01-13 20:52:12 143

原创 ExaDigiT/RAPS

灵活性：支持合成工作负载和真实遥测数据回放扩展性：支持多分区系统、冷却模型、网络模拟性能优化：使用NPZ快照加速重复模拟可视化：提供实时监控和后期绘图功能生态系统：支持Docker、第三方调度器、服务器/客户端架构数据多样性：支持多个超算系统的数据格式。

2026-01-05 11:35:44 716

原创深度Q网络(DQN)及其变体双深度Q网络(DDQN)对比学习

本文对比了DQN和DDQN两种深度强化学习算法。

2025-12-22 15:25:22 1147

原创 “软更新”及公式理解

在强化学习中，特别是在。

2025-11-17 22:08:16 852

原创状态价值函数和状态-动作价值函数定义及区别

状态价值函数 Vπ(s)V_{\pi}(s)Vπ(s) 用来衡量在状态 sss 下，遵循策略 π\piπ 时，代理（agent）从该状态出发能获得的期望回报。定义：Vπ(s)=E[∑t=0∞γtrt∣s0=s,π]V_{\pi}(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, \pi \right]Vπ(s)=E[t=0∑∞γtrt∣s0=s,π]这里的 γ\gammaγ 是折扣因子，rtr_trt

2025-11-17 21:54:59 747

原创图神经网络应用场景

任务级别目标核心应用场景节点级别预测每个节点的属性/类别社交网络用户分类、引文网络论文分类、欺诈检测边级别预测节点间是否存在边社交推荐、知识图谱补全、药物相互作用预测图级别预测整个图的属性分子属性预测、蛋白质功能预测、代码漏洞检测总而言之，只要你的数据中包含着重要的“关系”或“交互”信息，并且这些信息可以自然地表示为图结构，那么GNN就是一个非常强大和合适的工具。它已经成为分析复杂关系数据的首选深度学习框架。

2025-11-06 09:52:19 1246

原创 screen命令指南

【代码】screen命令指南。

2025-10-29 22:32:36 440

原创生物突触功能总结

生物突触功能总结

2025-10-27 23:13:03 258

原创加载Qwen预训练模型

文章摘要：作者在使用开源代码下载模型时遇到各种报错和网络问题，即使设置镜像网站也无法解决。尝试了两种方法：1）通过huggingface-cli设置环境变量下载；2）使用huggingface_hub库下载，均未成功。最终改用命令行方式，通过modelscope库成功下载模型到指定路径（默认路径为C盘.cache文件夹）。该方法需先安装modelscope库，再执行下载指令。

2025-10-23 15:17:12 355

原创临时关闭和启用windows系统防火墙

禁用防火墙：netsh advfirewall set allprofiles state off。启用防火墙：netsh advfirewall set allprofiles state on。按下Win + X键，选择“Windows终端（管理员）”或“命令提示符（管理员）”；打开命令提示符（管理员权限）；

2025-10-20 19:11:59 456

原创量化感知训练硬件实现基本原理

量化感知训练的核心思想是，在训练过程中就模拟量化误差，使得网络能够适应量化后的权重，并在最终应用中仍然保持较好的精度和性能。通过在前向传播时量化权重，并在反向传播中使用直通估计器更新权重，训练得到的量化权重可以有效地用于推理。

2025-10-11 12:39:27 652

原创非对称量化和对称量化

xintclipsxz02b−11把浮点数先按步长s缩放、再加零点偏移z，最后截断到可表示的整数范围（这里用的是无符号02b−1xsxint−z2把整数还原回近似的浮点值（xszs2b−1xmax−xminz⌊−sxmin⌋3这样选能让xmin约映射到 0、xmax约映射到2b−1，同时保证x0附近对齐到整数z。

2025-08-27 11:08:16 646

原创深度感知卷积和深度感知平均池化

在深度感知卷积中，模型会根据像素间的深度相似性加权计算卷积操作，以此来保留结构性和细节信息，特别是在深度信息一致的区域。

2025-08-26 15:16:50 680

原创行缓存（line buffer）在图像卷积中的工作方式

AXI4-Stream 按顺序把新像素从右侧送入（虚线箭头，正在进入的是 23、24、25），缓存里的数据整体向左“移位”。（绿色块），与 3×3 卷积核的 9 个系数并行相乘，再经过加法树求和，得到新的输出像素（图中标成 N2）。此刻选中的 3×3 为像素 {2,3,4 / 11,12,13 / 20,21,22}。一句话：图示的是一个随输入像素流滚动的三行缓存，它不断滑动3×3窗口，支持九值并行乘加，从而高效地产生连续的卷积输出。上半部分是一个按行扫描输入的图像块（示例为 9×9，编号 1–81）。

2025-08-22 11:26:42 732

原创 snn前向推理时间计算(处理器实现)

Tinf=(1−sparsity)×number of synapsesnumber of sub-processors×SIMD waysT_{\text{inf}}=\frac{(1-\text{sparsity})\times \text{number of synapses}}{\text{number of sub-processors}\times \text{SIMD ways}}Tinf=number of sub-processors×SIMD ways(1−sparsity)×

2025-08-20 19:37:13 794