Transformer 在序列建模领域构建了黄金标准,但其黑箱特性导致的因果混淆问题使得其可解释性和可靠性较差。而因果推理通过结构因果模型(SCM)与反事实推理框架,能精准识别变量间的干预效应(ITE)与混杂因子,为决策系统提供了可验证的解释。
当前,许多研究致力于结合二者的互补特性,如 CausaFormer利用因果图约束掩码策略,通过因果结构引导的预训练在自动驾驶轨迹预测中消除70%的伪相关性误差。这类混合架构正在重塑药物发现、智能运维等关键领域的技术范式,为因果可解释性理论带来了新的突破。未来研究或将进一步突破超大规模因果图的Transformer适配瓶颈,开辟量子因果推理等新领域。
本文整理了【13篇】最新前沿研究,供大家学习与参考,同学们有需要可以自取~
对资料感兴趣的可以 [丝 xin] 我~~
一、VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames
1. 方法
本文提出了一种名为VicaSplat的新框架,用于从一系列未标定的视频帧中进行3D高斯重建和相机姿态估计。该方法基于一种新颖的变换器网络架构,首先通过图像编码器将每个图像映射为视觉标记,并与可学习的相机标记结合。通过定制的因果变换器解码器,这些标记能够相互通信,从而聚合不同视角的特征并调制它们,以注入视角依赖的特征。VicaSplat在多视角输入下超越了基线方法,并在两视角方法中表现出可比的性能。此外,该模型在ScanNet基准测试上展示了卓越的跨数据集泛化能力,无需任何微调。
2. 创新点
1)无监督框架的突破 传统3D重建方法通常依赖精确的相机姿态标定数据,而本文提出的VicaSplat框架无需真实相机姿态,直接从未标定的视频帧中联合优化3D高斯重建和相机姿态估计,突破了数据标定的限制。
2)基于变换器的多视角特征交互机制 创新性地将视觉标记与可学习相机标记结合,通过因果变换器解码器实现跨视角特征聚合与调制。这种设计使模型能够动态融合不同视角的信息,同时捕捉视角依赖性,从而提升重建精度。
3)高效前馈网络的架构设计 提出一种轻量级的前馈网络结构,通过一次前向传播即可完成重建和姿态估计,避免迭代优化或分阶段处理的耗时流程。这种高效性使其更适合实时或资源受限的应用场景。
二、EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
1.方法
本文提出了EasyControl,一个轻量级且高效的插件模块,旨在统一条件引导的扩散变换器,提升其效率和灵活性。该模块独立处理条件信号,避免修改基础模型的权重,确保与定制模型的兼容性,并支持零-shot多条件泛化。
EasyControl 在变换器的基础上引入因果注意机制,结合KV缓存技术,显著降低图像合成的延迟,提高整体效率。通过广泛的实验,EasyControl在多种应用场景中表现出色,展示了其在高效性、灵活性和多条件控制方面的优势。
2. 创新点
1)条件注入LoRA模块的独立性 本文提出的条件注入LoRA模块通过低秩适配技术,将条件信号作为独立输入分支处理,避免对基础扩散变换器(DiT)权重的直接修改。这种设计不仅保持了与现有定制模型的兼容性,还支持零-shot多条件泛化,显著提升了灵活性。
2)位置感知训练范式的分辨率解耦 本文提出的位置感知训练范式通过将输入条件标准化至固定分辨率,并引入可学习的空间位置编码,使模型能够动态适应任意目标分辨率。这一创新打破了分辨率硬性约束,同时通过稀疏计算优化减少高分辨率生成的计算开销。
3)因果注意机制与KV缓存的协同优化 针对扩散模型逐步骤生成导致的高延迟问题,本文设计了因果注意机制,结合扩散过程的时间依赖性,仅在当前生成步骤更新必要的键值(KV)缓存。相较于传统全局注意力,该方法减少约40%的内存占用和计算量,尤其在高分辨率图像生成中显著降低推理延迟,同时保持生成质量。
论文链接:[2503.07027] EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
三、Hierarchical Causal Transformer with Heterogeneous Information for Expandable Sequential Recommendation
1. 方法
本文提出了HeterRec,一个创新框架,包含两个新组件:异构令牌扁平化层(HTFL)和层次因果变换器(HCT)。HTFL采用先进的令牌化机制,将项目分解为多维令牌集,并将其结构化为异构序列,从而通过模型扩展实现可扩展的性能提升。HCT 通过令牌级和项目级的注意机制,进一步提升模式发现能力。真实工业平台上的严格验证表明,HeterRec在有效性和效率上均达到了最先进的性能。
2. 创新点
1)异构令牌扁平化层(HTFL) HTFL通过将每个项目分解为多维异构令牌,并结构化表示为序列,实现了对项目属性的细粒度建模。这种设计不仅提升模型可解释性,还能通过增加令牌维度灵活扩展模型容量。
2)层次因果变换器(HCT) HCT创新性地引入双层注意力:
-
令牌级注意力捕捉同一项目内不同属性间的关联。
-
项目级注意力建模用户行为序列中项目间的动态依赖关系。 通过因果掩码机制,HCT严格遵循时间顺序,避免未来信息泄露,更符合真实场景的推荐逻辑。