论文阅读笔记
文章平均质量分 90
机器学习、强化学习领域的论文阅读笔记
MoonOutCloudBack
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Nash-MTL:在多任务梯度组合中引入纳什谈判解
算法直观介绍:使用博弈论中的“纳什谈判解”,建模多任务优化问题中的梯度组合,最大化 ∑ log(Δθᵀgᵢ),其中 gᵢ 是第 i 个任务的梯度。原创 2026-01-08 18:21:17 · 957 阅读 · 0 评论 -
GradNorm:多任务学习中的梯度平衡方法
在多任务学习中,某个任务梯度太大会压制其他任务的学习。GradNorm 通过动态调整各任务损失权重,使得各任务的梯度大小与其训练速度成反比,从而平衡各个梯度大小。原创 2026-01-05 19:32:20 · 1229 阅读 · 0 评论 -
GradDrop:让多任务学习不再“梯度拔河”
算法直观介绍:对于每一个参数,GradDrop 只允许一个“方向”的更新(要么全增加,要么全减少),但保留这个方向上所有的“力量”。原创 2026-01-06 13:00:00 · 1587 阅读 · 0 评论 -
CAGrad:保证收敛到平均损失最小的多任务梯度算法
CAGrad 在平均梯度附近寻找一个更新方向,让所有任务中损失下降最慢的那个任务也能得到提升,从而平衡各任务,同时还能保证最终收敛到平均损失的最小值。原创 2026-01-05 23:15:30 · 1008 阅读 · 0 评论 -
PCGrad:通过梯度手术,让多任务学习不再“左右互搏”
算法核心思想:如果两个任务的梯度方向冲突(夹角 > 90°),就把每个梯度投影到另一个梯度的“垂直平面”上,去掉冲突部分。原创 2026-01-07 09:00:00 · 1172 阅读 · 0 评论 -
MGDA-UB:寻找多任务学习中的帕累托最优,缓解任务冲突问题
这篇文章将多任务学习重新定义为多目标优化问题,提出了名为 MGDA-UB 的高效算法,能在几乎不增加计算成本的情况下,找到让各个任务都尽可能好的"帕累托最优"解。原创 2026-01-02 21:51:04 · 806 阅读 · 0 评论 -
GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈
简单的哈希表找到相同状态,将所有相同状态组成分组(group),并在组内计算优势(advantage),从而提供细粒度信用分配信号。原创 2025-11-05 08:45:00 · 1442 阅读 · 0 评论 -
RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?
RAGEN 关注 LLM 多轮(multi-turn)任务的强化学习微调,揭示了直接应用单轮 RL 算法的挑战。原创 2025-11-04 08:45:00 · 1166 阅读 · 0 评论 -
ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈
使用分层 RL 思想,解决 multi-turn 的信用分配问题:在高层次,采用时序差分方法来训练语句级(utterance-leve)的价值函数,在低层上,采用 GRPO 等算法来优化 token 生成,而将高层价值函数视为该轮的终局奖励。原创 2025-11-04 22:14:48 · 1313 阅读 · 0 评论 -
VinePPO:基于蒙特卡洛采样的无偏 credit assignment 进行价值估计,提升大模型推理能力
VinePPO 利用 LLM 环境可重置的特性,使用蒙特卡洛采样,估计 PPO 的价值函数。原创 2025-11-03 20:26:58 · 879 阅读 · 0 评论 -
【ICRA 2023】SASD 论文阅读笔记:一种安全感知的无监督技能发现方法
Safety-aware unsupervised skill discovery,感觉仍然是加监督信号 加 reward 的方法。原创 2025-07-21 21:29:11 · 2150 阅读 · 0 评论 -
五分钟彻底理解 Model-Agnostic Meta-Learning(MAML)
MAML 训练模型的初始参数,使其面对新任务时,只需少量数据 + 几步梯度更新便能快速学习。原创 2025-04-04 15:29:09 · 618 阅读 · 0 评论 -
学习不对称的世界:泊松准度量嵌入(PQE)详解
项目代码:https://github.com/quasimetric-learning/torch-quasimetric原创 2025-11-02 15:08:29 · 934 阅读 · 0 评论 -
分布式计算环境下的任务调度与能耗优化 —— 核心概念、挑战与前沿方法解析
总结分布式计算(云、雾、IoE)环境中任务调度(task scheduling)场景的三篇综述论文。原创 2025-10-01 19:12:02 · 711 阅读 · 0 评论 -
eBay 电商搜索新突破:NEAR2 嵌套向量方法,让搜索“又快又准”
NEAR2 提出多维度(64 128 512)embedding 训练技术,为每一维都训练对比学习 loss,使得每一种维度的 embedding 都包含全局信息,且 embedding 头部信息量最大。原创 2025-07-02 22:40:25 · 593 阅读 · 0 评论 -
非对称模态检索:京东 SMAR 在电商搜索中的创新实践
1. 使用多个任务训练多模态 embedding,2. 训练一个按需使用图片模态的“门控”模块。原创 2025-07-02 22:14:58 · 957 阅读 · 0 评论 -
WDM 论文阅读笔记:从信息论到表示学习
把互信息中的 KL(p(xy), p(x)p(y)) 替换成了 W(p(xy), p(x)p(y)),好像性能更好。原创 2025-07-13 14:09:15 · 704 阅读 · 0 评论 -
深度解析 RQ-VAE:如何通过残差量化提升图像生成效率
第一次接触 quantized 的离散化方法,感觉很新颖。原创 2025-07-13 13:13:13 · 2511 阅读 · 0 评论 -
【WWW 2024】POLISH:可以动态增加类别标签的 Hash-based 语义 ID 方法
为类别 embedding 乘 Hadamard 矩阵,使其正交化,然后根据输入高维向量的类别标签构建 loss。原创 2025-07-23 17:59:17 · 741 阅读 · 0 评论
分享