阿里妈妈技术-CSDN博客

原创 SIGIR‘26 | 多时间尺度轨迹自回归模型TAR，破解推广投放中的“粒度不匹配“难题

值得深入分析的是提升幅度的分布模式：在低预算（50%、75%）时提升最为显著（8.4%、13.5%），这是因为低预算下可赢得的曝光更少、转化更稀疏，粒度不匹配问题最严重，TAR 的多尺度机制优势最为突出；这一设计的精巧之处在于：动作序列作为状态轨迹的"一阶差分信息"被嵌入生成目标本身，使得从粗到细的轨迹生成天然包含了从粗到细的动作规划。这验证了论文的核心论点：多尺度生成在"反馈时间错位"场景中的价值更大——因为延迟反馈的本质就是信息在时间轴上的弥散，粗尺度观测天然"收纳"了这种弥散。

2026-05-28 18:01:00 370

原创 ACL’26 Oral｜补齐LLM的“社交短板”！新框架首次将图数据作为监督信号，宏观微观全面对齐

值得注意的是，尽管基于 8B 参数 backbone，Graphia 在多个数据集上超越或媲美更大规模 LLM（如 Qwen3-32B、Llama3.1-70B）。它利用图数据作为LLM 后训练阶段的监督信息，并引入强化学习机制：基于图神经网络 (GNN) 的结构奖励来训练专门的智能体，使其能够预测与谁交互（目标选择）以及如何交互（边生成），然后通过预先设计的图生成流程进行操作。（2）结构奖励设计：引入更高阶拓扑属性（如社区凝聚、三元闭包）到奖励函数中，提升模型在不同图结构下的泛化能力。

2026-05-21 18:00:00 365

原创让大模型自己学会拍卖！LLM-Auction将营销内容分配与自然回答生成合二为一

同时，定性的案例展示出：①相比预训练 LLM，LLM-Auction 对营销内容的分配有更好的语义匹配性，并会将营销内容自然融入回答叙事；Oracle版本的LLM-Auction的性能进一步预示了，随着效果预估模型精度的提升，LLM-Auction仍有可观的提升空间。LLM-Auction 将拍卖机制设计与 LLM 对齐技术结合，提出了首个统一分配与生成的基于学习的机制框架：通过偏好对齐让 LLM 自身成为分配规则，天然建模上下文外部性，并在不增加额外推理开销的情况下获得更高分配效率。

2026-05-14 18:01:13 571

原创 WWW’26 Oral | DARA：面向在线推广的小样本预算分配双阶段RL‑LLM框架

DARA 框架通过将预算分配任务拆分为小样本推理和精细化优化两个阶段，结合 RL 微调提升了 LLM 的数值推理能力，在在线推广预算规划中取得了显著效果。这是因为随着策略持续优化，当前策略与固定参考策略之间的分布差距越来越大，KL 正则化项会产生越来越强的"拉回力"，将模型束缚在一个已经过时的基线附近，最终导致推理能力退化——这在预算分配这类需要多步精确数值计算的任务中尤为致命。算法 1 总结了双阶段协同的流程：首先通过小样本推理器生成初始预算，随后在每个周期内根据反馈调整预算，直到满足终止条件。

2026-05-07 18:13:57 363