论文阅读_fishfuck的博客-CSDN博客

论文阅读

关注

文章平均质量分 94

关注数：文章数：17 文章阅读量：24900 文章收藏量：279

作者: fishfuck

一个人必须不停地写作，才能不被茫茫人海湮灭。

展开

专栏收录文章

Onthe Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

摘要本文研究了预训练、中间训练和强化学习（RL）对语言模型推理能力的协同作用。通过可控合成数据集实验发现：1）RL仅在预训练覆盖不足且数据针对模型"能力边缘"时才能带来真正能力提升；2）RL主要放大已有基础技能，难以生成全新推理能力；3）中间训练通过扩展推理原语和表征对齐，显著提升模型表现；4）过程级奖励可减少"投机取巧"行为。研究揭示了三阶段训练的互补作用：预训练提供基础能力，中间训练扩展原语并优化表征，RL在能力边缘精修并实现局部增益。

原创 2025-12-13 21:40:30 · 832 阅读 · 0 评论
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

MMEvol：通过数据进化提升多模态大模型能力 MMEvol提出了一种创新的多模态指令数据进化框架，旨在解决当前MLLM发展面临的核心瓶颈：高质量、复杂多样的图文指令数据稀缺。该框架通过细粒度感知进化、认知推理进化和交互进化三个方向，迭代优化指令数据的质量与复杂度。方法上，MMEvol设计了结构化进化框架，包含视觉对象域、原子能力域等关键组件，确保进化过程的质量控制。实验在13个视觉-语言基准任务上验证了其有效性，结果显示进化后的数据能显著提升模型性能。该方法突破了传统"模型驱动"和简

原创 2025-12-13 21:37:59 · 702 阅读 · 0 评论
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

摘要本研究探讨了强化学习与可验证奖励（RLVR）对大语言模型（LLM）推理能力的实际影响。通过数学、代码和视觉推理任务的系统性实验，发现RLVR在小样本（k=1）下能提高正确率，但在大样本（k≥128）时基础模型的解题覆盖率反而更高。这表明当前RLVR主要优化了已有推理模式的采样效率，而非真正拓展模型的推理能力边界。评估采用改进的pass@k指标，避免了传统best-of-n方法的局限性。结果显示，基础模型在足够采样下能解决更多问题，而RL训练可能因过度优化特定路径而牺牲了潜在多样性。这一发现对理解RL在

原创 2025-12-13 21:37:00 · 810 阅读 · 0 评论
Collaboration between clinicians and vision–language models in radiology report generation

摘要本研究开发了Flamingo-CXR系统，一种基于视觉-语言模型的放射学报告自动生成方法。针对当前AI在放射学领域仅能完成有限分类任务而难以生成完整临床报告的局限性，该系统在MIMIC-CXR和IND1数据集上实现了33%的CheXpert和RadGraph F1分数提升。通过27名放射科医生的双盲评估发现，77.7%的情况下AI生成报告被认为优于或等同于人工报告。研究还创新性地评估了AI作为医生助手的协作模式，揭示了AI在辅助临床决策中的潜力，为缓解全球放射科医生短缺问题提供了新思路。

原创 2025-12-11 10:43:27 · 976 阅读 · 0 评论
论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

以视觉为中心的自动驾驶感知的现代方法广泛采用鸟瞰图（BEV）表示来描述3D场景。尽管它的效率比体素表示更好，但它很难用单个平面描述场景的细粒度3D结构。为了解决这个问题，我们提出了一种三透视图（TPV）表示，它伴随着BEV和两个额外的垂直平面。我们通过总和其在三个平面上的投影特征来对3D空间中的每个点进行建模。为了将图像特征提升到3D TPV空间，我们进一步提出了一种基于Transformer的TPV编码器（TPVFormer）来有效地获取TPV特征。

原创 2024-08-22 22:52:08 · 1433 阅读 · 0 评论
论文阅读：MonoScene: Monocular 3D Semantic Scene Completion

MonoScene提出了一个3D语义场景完成（SSC）框架，其中场景的密集几何形状和语义是从单个单目 RGB 图像中推断出来的。与SC文献不同，我们依靠2.5或3D输入，解决了2D到3D场景重建的复杂问题，同时联合推断其语义。我们的框架依赖于连续的2D和3D UNets，通过受光学启发的新型2D 3D特征投影来连接，并在强制执行空间语义一致性之前引入3D上下文关系。除了建筑贡献之外，我们还介绍了新颖的全局场景和local frustums 损失。

原创 2024-08-22 17:16:57 · 2033 阅读 · 0 评论
论文阅读：GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation

鸟眼图(BEV)表示法被广泛用于从多视角摄像机图像中进行3D感知。它允许将不同摄像头的特征合并到一个公共空间，提供3D场景的统一表示。关键组件是视图转换器，它将图像视图转换为Bev。然而，基于几何或交叉注意的实际视图变换方法不能提供场景的足够详细的表示，因为它们使用3D空间的子采样，该子采样对于环境的精细结构的建模是非最佳的。在本文中，我们提出了一种新的将图像特征转换为BEV的方法–GaussianBeV，该方法通过在3D空间中定位和定位的一组3D GaussianBeV来精细地表示场景。

原创 2024-08-13 12:17:34 · 1561 阅读 · 0 评论
论文阅读：GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有率预测旨在获得周围场景的3D细粒度几何和语义，是以视觉为中心的自主驾驶健壮性的重要任务。现有的场景表示方法大多采用体素等密集网格表示场景，忽略了场景占用的稀疏性和对象尺度的多样性，从而导致资源分配的不平衡。为了解决这一问题，我们提出了一种以对象为中心的表示方法来描述具有稀疏3D语义高斯的3D场景，其中每个高斯表示一个灵活的感兴趣区域及其语义特征。我们通过注意力机制从图像中收集信息，并迭代地提炼3D高斯图的属性，包括位置、协方差和语义。

原创 2024-08-12 22:34:50 · 1874 阅读 · 0 评论
论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering

辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视角合成。然而，要获得高视觉质量，仍然需要训练和渲染成本高昂的神经网络，而最近更快的方法不可避免地要牺牲速度来换取质量。对于无界和完整的场景(而不是孤立的对象)和1080p分辨率的渲染，目前还没有一种方法可以达到实时显示速率。我们引入了三个关键元素，使我们能够在保持有竞争力的训练时间的同时获得最先进的视觉质量，并重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新颖视图合成。

原创 2024-08-11 22:57:30 · 1311 阅读 · 1 评论
论文阅读：Deformable DETR: Deformable Transformers for End-to-End Object Detection

最近提出了DETR，以消除对象检测中对许多手工设计组件的需求，同时表现出良好的性能。然而，由于Transformer注意力模块在处理图像特征 map 方面的局限性，它存在收敛慢和特征空间分辨率有限的问题。为了缓解这些问题，我们提出了Deformable DETR，其注意力模块只关注参考周围的一小组关键采样点。Deformable DETR可以在训练时间减少10倍的情况下实现比DETR更好的性能（尤其是在小物体上）。对COCO基准的广泛实验证明了我们方法的有效性。

原创 2024-07-28 21:52:28 · 683 阅读 · 0 评论
论文阅读：（DETR）End-to-End Object Detection with Transformers

我们提出了一种将目标检测看作集合预测（set prediction）问题的新方法。我们的方法简化了目标检测的流水线，有效地消除了许多需要手工设计的组件，如非极大值抑制算法或锚框（anchor）生成算法这类需要根据任务显式编码的先验知识。新框架的主要组成部分被称为DEtection TRansformer或DETR，包括一个通过二部图匹配进行唯一预测的基于集合的全局损失，以及一个Transformer编码器-解码器结构。

原创 2024-07-27 22:39:58 · 494 阅读 · 0 评论
论文阅读：T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

提出了一种实用的开集目标检测模型T-Rex2。以往的基于文本提示的开集对象检测方法有效地封装了常见对象的抽象概念，但由于数据稀缺和描述性限制，难以实现稀有或复杂的对象表示。相反，视觉提示擅长通过具体的视觉例子来描述新奇的物体，但不能像文本提示那样有效地传达物体的抽象概念。认识到文本提示和视觉提示的互补优势和劣势，我们引入了T-Rex2，它通过对比学习在单个模型中协同这两个提示。T-Rex2接受各种格式的输入，包括文本提示、视觉提示以及两者的组合，因此它可以通过在两种提示模式之间切换来处理不同的场景。

原创 2024-07-27 18:21:15 · 1488 阅读 · 0 评论
论文阅读：Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting

尽管基于大规模遥感图像的3D城市场景重建和建模对于数字孪生和智能城市等许多关键应用至关重要，但由于异构数据集和几何模型的不确定性，这是一个困难的任务。本文提出了一种基于高斯溅射的方法，用于3D城市场景建模和几何检索，贡献如下。首先，我们开发并实现了一种大规模3D城市场景建模的3D高斯溅射（3DGS）方法。其次，我们在提出的3DGS模型中设计了点云密集化方法，以提高城市场景3D几何提取的质量。

原创 2024-07-20 21:57:42 · 1926 阅读 · 0 评论
论文阅读：VMamba: Visual State Space Model

卷积神经网络（CNNs）和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性，具有线性复杂度，但ViTs在拟合能力上超越了它们，尽管它们面临着二次方复杂度的挑战。仔细检查发现，。这一观察启发我们提出了一种新的架构，它继承了这些组件，同时提高了计算效率。为此，我们从最近引入的状态空间模型中汲取灵感，提出了视觉状态空间模型（VMamba），它在不牺牲全局感受野的情况下实现了线性复杂度。

原创 2024-03-07 22:48:51 · 1970 阅读 · 1 评论
论文阅读：Segment Anything

在应用我们的解码器之前，我们首先在提示嵌入集合中插入一个可学习的输出token嵌入，它将在解码器的输出中使用，类似于[33]中的[CLASS]令牌。然后，token再次参与图像嵌入，我们将更新后的输出令牌嵌入传递给一个小的3层MLP，该MLP输出与放大的图像嵌入的通道维度相匹配的矢量。我们工作中的一个重要区别是，为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务，例如，为了执行实例分割，可提示分割模型与现有的对象检测器相结合。以及(2)相同的结构，但使用表示“右下角”的学习嵌入。

原创 2024-02-11 00:13:51 · 1526 阅读 · 0 评论
论文阅读：Self-conditioned Image Generation via Generating Representations（RCG）

提出的表示条件图像生成（Representation-Conditioned image Generation，RCG），一个简单而有效的框架用于自适应图像生成。简而言之就是无附加条件生成相同分布的图片。

原创 2024-01-30 00:24:29 · 1450 阅读 · 0 评论
论文阅读：ReCo Retrieve and Co-segment for Zero-shot Transfer

目前的语义分割面临着如下的挑战：(1)成本：收集人工像素级注释非常昂贵，限制了完全监督方法的使用；(2)灵活性：监督方法通常用有限的预定义类别列表进行训练，并且缺乏识别稀有或新类别(例如由自由形式文本描述的类别)的能力；(3)部署的复杂性：非监督分割方法极大地降低了标注成本，但仍然表现出要求标记的示例为预测分配名称的不便；

原创 2024-01-30 00:23:13 · 3831 阅读 · 0 评论

论文阅读

作者: fishfuck

Onthe Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Collaboration between clinicians and vision–language models in radiology report generation

论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

论文阅读：MonoScene: Monocular 3D Semantic Scene Completion

论文阅读：GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation

论文阅读：GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering

论文阅读：Deformable DETR: Deformable Transformers for End-to-End Object Detection

论文阅读：（DETR）End-to-End Object Detection with Transformers

论文阅读：T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

论文阅读：Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting

论文阅读：VMamba: Visual State Space Model

论文阅读：Segment Anything

论文阅读：Self-conditioned Image Generation via Generating Representations（RCG）

论文阅读：ReCo Retrieve and Co-segment for Zero-shot Transfer