自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

fishfuck的博客

原创 Onthe Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

摘要本文研究了预训练、中间训练和强化学习（RL）对语言模型推理能力的协同作用。通过可控合成数据集实验发现：1）RL仅在预训练覆盖不足且数据针对模型"能力边缘"时才能带来真正能力提升；2）RL主要放大已有基础技能，难以生成全新推理能力；3）中间训练通过扩展推理原语和表征对齐，显著提升模型表现；4）过程级奖励可减少"投机取巧"行为。研究揭示了三阶段训练的互补作用：预训练提供基础能力，中间训练扩展原语并优化表征，RL在能力边缘精修并实现局部增益。

2025-12-13 21:40:30 832

原创 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

MMEvol：通过数据进化提升多模态大模型能力 MMEvol提出了一种创新的多模态指令数据进化框架，旨在解决当前MLLM发展面临的核心瓶颈：高质量、复杂多样的图文指令数据稀缺。该框架通过细粒度感知进化、认知推理进化和交互进化三个方向，迭代优化指令数据的质量与复杂度。方法上，MMEvol设计了结构化进化框架，包含视觉对象域、原子能力域等关键组件，确保进化过程的质量控制。实验在13个视觉-语言基准任务上验证了其有效性，结果显示进化后的数据能显著提升模型性能。该方法突破了传统"模型驱动"和简

2025-12-13 21:37:59 702

原创 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

摘要本研究探讨了强化学习与可验证奖励（RLVR）对大语言模型（LLM）推理能力的实际影响。通过数学、代码和视觉推理任务的系统性实验，发现RLVR在小样本（k=1）下能提高正确率，但在大样本（k≥128）时基础模型的解题覆盖率反而更高。这表明当前RLVR主要优化了已有推理模式的采样效率，而非真正拓展模型的推理能力边界。评估采用改进的pass@k指标，避免了传统best-of-n方法的局限性。结果显示，基础模型在足够采样下能解决更多问题，而RL训练可能因过度优化特定路径而牺牲了潜在多样性。这一发现对理解RL在

2025-12-13 21:37:00 810

原创 Collaboration between clinicians and vision–language models in radiology report generation

摘要本研究开发了Flamingo-CXR系统，一种基于视觉-语言模型的放射学报告自动生成方法。针对当前AI在放射学领域仅能完成有限分类任务而难以生成完整临床报告的局限性，该系统在MIMIC-CXR和IND1数据集上实现了33%的CheXpert和RadGraph F1分数提升。通过27名放射科医生的双盲评估发现，77.7%的情况下AI生成报告被认为优于或等同于人工报告。研究还创新性地评估了AI作为医生助手的协作模式，揭示了AI在辅助临床决策中的潜力，为缓解全球放射科医生短缺问题提供了新思路。

2025-12-11 10:43:27 976

原创 (Interleaved MRoPE) Revisiting Multimodal Positional Encoding in Vision–Language Models

本文提出Interleaved MRoPE方法，重新审视视觉-语言模型中的多模态位置编码。通过分析传统RoPE机制，指出一维位置设计会破坏视觉内容的三维结构，并导致长序列中位置索引过大。现有改进方法如V2PE虽能缓解索引问题，但未能保留空间结构。作者提出三条核心准则：位置一致性确保布局无歧义，频率充分利用提升表征能力，文本先验保留实现大语言模型的忠实迁移。相比直接扩展为多维元组的MRoPE等方法，本文方法通过交错设计更好地平衡了不同模态的位置编码需求。

2025-11-30 22:07:00 1366

原创 ERROR: Failed to initialize curses (setupterm: could not find terminfo database)

报错 ERROR: Failed to initialize (setupterm: could not find terminfo database)说明curse未被成功初始化，因为找不到terminfo database

2025-05-01 15:44:41 762

原创相机坐标变换

相机外参由于是相机的位姿，它会随着相机的运动而改变，但是相机内参是不变的。相机外参的估计可以用视觉里程计，相机内参在相机出厂之后是固定的，有的生产厂商会告诉你相机内参，有时需要自己标定（如棋盘格标定法）。是由相机1的外参得到，这里要用到相机2的外参，camera2: $ (q_{w2}, q_{x2}, q_{y2}, q_{z2}, t_{x2}, t_{y2}, t_{z2})$,求得。是3 * 3矩阵，有9个量，而一次旋转只有3个自由度，这种表达方式是冗余的，四元数的表达更紧凑。

2024-09-13 16:20:00 1866

原创论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

以视觉为中心的自动驾驶感知的现代方法广泛采用鸟瞰图（BEV）表示来描述3D场景。尽管它的效率比体素表示更好，但它很难用单个平面描述场景的细粒度3D结构。为了解决这个问题，我们提出了一种三透视图（TPV）表示，它伴随着BEV和两个额外的垂直平面。我们通过总和其在三个平面上的投影特征来对3D空间中的每个点进行建模。为了将图像特征提升到3D TPV空间，我们进一步提出了一种基于Transformer的TPV编码器（TPVFormer）来有效地获取TPV特征。

2024-08-22 22:52:08 1433 1

原创论文阅读：MonoScene: Monocular 3D Semantic Scene Completion

MonoScene提出了一个3D语义场景完成（SSC）框架，其中场景的密集几何形状和语义是从单个单目 RGB 图像中推断出来的。与SC文献不同，我们依靠2.5或3D输入，解决了2D到3D场景重建的复杂问题，同时联合推断其语义。我们的框架依赖于连续的2D和3D UNets，通过受光学启发的新型2D 3D特征投影来连接，并在强制执行空间语义一致性之前引入3D上下文关系。除了建筑贡献之外，我们还介绍了新颖的全局场景和local frustums 损失。

2024-08-22 17:16:57 2033 1

原创论文阅读：GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation

鸟眼图(BEV)表示法被广泛用于从多视角摄像机图像中进行3D感知。它允许将不同摄像头的特征合并到一个公共空间，提供3D场景的统一表示。关键组件是视图转换器，它将图像视图转换为Bev。然而，基于几何或交叉注意的实际视图变换方法不能提供场景的足够详细的表示，因为它们使用3D空间的子采样，该子采样对于环境的精细结构的建模是非最佳的。在本文中，我们提出了一种新的将图像特征转换为BEV的方法–GaussianBeV，该方法通过在3D空间中定位和定位的一组3D GaussianBeV来精细地表示场景。

2024-08-13 12:17:34 1561 1

原创论文阅读：GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有率预测旨在获得周围场景的3D细粒度几何和语义，是以视觉为中心的自主驾驶健壮性的重要任务。现有的场景表示方法大多采用体素等密集网格表示场景，忽略了场景占用的稀疏性和对象尺度的多样性，从而导致资源分配的不平衡。为了解决这一问题，我们提出了一种以对象为中心的表示方法来描述具有稀疏3D语义高斯的3D场景，其中每个高斯表示一个灵活的感兴趣区域及其语义特征。我们通过注意力机制从图像中收集信息，并迭代地提炼3D高斯图的属性，包括位置、协方差和语义。

2024-08-12 22:34:50 1873 1

原创论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering

辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视角合成。然而，要获得高视觉质量，仍然需要训练和渲染成本高昂的神经网络，而最近更快的方法不可避免地要牺牲速度来换取质量。对于无界和完整的场景(而不是孤立的对象)和1080p分辨率的渲染，目前还没有一种方法可以达到实时显示速率。我们引入了三个关键元素，使我们能够在保持有竞争力的训练时间的同时获得最先进的视觉质量，并重要的是允许在1080p分辨率下进行高质量的实时(≥30 fps)新颖视图合成。

2024-08-11 22:57:30 1311 1

原创论文阅读：Deformable DETR: Deformable Transformers for End-to-End Object Detection

最近提出了DETR，以消除对象检测中对许多手工设计组件的需求，同时表现出良好的性能。然而，由于Transformer注意力模块在处理图像特征 map 方面的局限性，它存在收敛慢和特征空间分辨率有限的问题。为了缓解这些问题，我们提出了Deformable DETR，其注意力模块只关注参考周围的一小组关键采样点。Deformable DETR可以在训练时间减少10倍的情况下实现比DETR更好的性能（尤其是在小物体上）。对COCO基准的广泛实验证明了我们方法的有效性。

2024-07-28 21:52:28 683

原创论文阅读：（DETR）End-to-End Object Detection with Transformers

我们提出了一种将目标检测看作集合预测（set prediction）问题的新方法。我们的方法简化了目标检测的流水线，有效地消除了许多需要手工设计的组件，如非极大值抑制算法或锚框（anchor）生成算法这类需要根据任务显式编码的先验知识。新框架的主要组成部分被称为DEtection TRansformer或DETR，包括一个通过二部图匹配进行唯一预测的基于集合的全局损失，以及一个Transformer编码器-解码器结构。

2024-07-27 22:39:58 494

原创论文阅读：T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

提出了一种实用的开集目标检测模型T-Rex2。以往的基于文本提示的开集对象检测方法有效地封装了常见对象的抽象概念，但由于数据稀缺和描述性限制，难以实现稀有或复杂的对象表示。相反，视觉提示擅长通过具体的视觉例子来描述新奇的物体，但不能像文本提示那样有效地传达物体的抽象概念。认识到文本提示和视觉提示的互补优势和劣势，我们引入了T-Rex2，它通过对比学习在单个模型中协同这两个提示。T-Rex2接受各种格式的输入，包括文本提示、视觉提示以及两者的组合，因此它可以通过在两种提示模式之间切换来处理不同的场景。

2024-07-27 18:21:15 1488

原创论文阅读：Enhanced 3D Urban Scene Reconstruction and Point Cloud Densification using Gaussian Splatting

尽管基于大规模遥感图像的3D城市场景重建和建模对于数字孪生和智能城市等许多关键应用至关重要，但由于异构数据集和几何模型的不确定性，这是一个困难的任务。本文提出了一种基于高斯溅射的方法，用于3D城市场景建模和几何检索，贡献如下。首先，我们开发并实现了一种大规模3D城市场景建模的3D高斯溅射（3DGS）方法。其次，我们在提出的3DGS模型中设计了点云密集化方法，以提高城市场景3D几何提取的质量。

2024-07-20 21:57:42 1926 1

原创【软件配置】不使用ROS系统，不进行编译，纯python环境配置rosbag，从而解析.bag文件

whl 下载地址：https://files.cnblogs.com/files/yunhgu/rosbag_cv_bridge.zip。

2024-07-20 17:19:46 1361 2

原创论文阅读：Target localization based on cross-view matching between UAV and satellite

QATM套壳原理可直接去看，相当于做了一个应用匹配由无人飞行器（UAV）拍摄的遥感图像与具有地理定位信息的卫星遥感图像，从而确定由UAV捕获的目标对象的具体地理位置。其主要挑战在于，例如视角的剧烈变化、未知的方向等。许多先前的工作都集中在同源数据的图像匹配上。为了克服这两种数据模式之间的差异带来的困难，并在视觉定位中保持鲁棒性，本文提出了一种基于尺度自适应深度卷积特征的质量感知模板匹配方法，通过深入挖掘它们的共同特征。首先获取模板大小特征图和参考图像特征图。然后使用这两个获得的特征图来测量相似性。

2024-07-20 17:00:58 1992 1

原创论文阅读：A Faster and More Effective Cross-View Matching Method of UAV and Satellite Images for UAV Geol

无人飞行器（UAV）近年来迅速发展，由于其操作便捷和强大的数据收集能力，逐渐成为遥感图像获取的主要平台。Alexander等人[1]使用无人机数据在热带雨林中定位树木。Amour等人[2]提出了一种基于深度学习的无人机图像中汽车检测方法。Deng等人[3]将基于无人机的多光谱遥感应用于精准农业。无人机应用涉及众多领域，如摄影测量、农业和地图制作[4-7]。然而，目前无人机的定位和导航主要依赖于GPS和GNSS等定位系统。如何在没有定位系统辅助的情况下实现无人机的自主定位和导航，是一个具有挑战性的任务。

2024-07-08 21:27:24 1349 1

原创论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

这篇论文介绍了一种名为Swin Transformer的新型视觉Transformer架构，它能够有效地作为计算机视觉任务的通用骨干网络。Swin Transformer通过使用移位窗口（Shifted Windows）来计算自注意力（Self-Attention），从而解决了从语言领域到视觉领域的Transformer适应过程中遇到的挑战，如视觉实体尺度的大变化和图像像素的高分辨率。

2024-03-15 19:38:30 1037 2

原创论文阅读：VMamba: Visual State Space Model

卷积神经网络（CNNs）和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展性，具有线性复杂度，但ViTs在拟合能力上超越了它们，尽管它们面临着二次方复杂度的挑战。仔细检查发现，。这一观察启发我们提出了一种新的架构，它继承了这些组件，同时提高了计算效率。为此，我们从最近引入的状态空间模型中汲取灵感，提出了视觉状态空间模型（VMamba），它在不牺牲全局感受野的情况下实现了线性复杂度。

2024-03-07 22:48:51 1970 1

原创论文阅读：Segment Anything

在应用我们的解码器之前，我们首先在提示嵌入集合中插入一个可学习的输出token嵌入，它将在解码器的输出中使用，类似于[33]中的[CLASS]令牌。然后，token再次参与图像嵌入，我们将更新后的输出令牌嵌入传递给一个小的3层MLP，该MLP输出与放大的图像嵌入的通道维度相匹配的矢量。我们工作中的一个重要区别是，为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务，例如，为了执行实例分割，可提示分割模型与现有的对象检测器相结合。以及(2)相同的结构，但使用表示“右下角”的学习嵌入。

2024-02-11 00:13:51 1526 1

原创论文阅读：Self-conditioned Image Generation via Generating Representations（RCG）

提出的表示条件图像生成（Representation-Conditioned image Generation，RCG），一个简单而有效的框架用于自适应图像生成。简而言之就是无附加条件生成相同分布的图片。

2024-01-30 00:24:29 1448 1

原创论文阅读：ReCo Retrieve and Co-segment for Zero-shot Transfer

目前的语义分割面临着如下的挑战：(1)成本：收集人工像素级注释非常昂贵，限制了完全监督方法的使用；(2)灵活性：监督方法通常用有限的预定义类别列表进行训练，并且缺乏识别稀有或新类别(例如由自由形式文本描述的类别)的能力；(3)部署的复杂性：非监督分割方法极大地降低了标注成本，但仍然表现出要求标记的示例为预测分配名称的不便；

2024-01-30 00:23:13 3831 1

原创操作系统知识要点

操作系统期末复习总结

2023-02-13 15:39:41 656

原创使用python实现一个简陋的上位机

使用python实现的简易（简陋）上位机，仅支持最最最基本的功能

2022-09-09 19:00:00 3162

原创【美赛备赛】word编辑公式全攻略

本篇博客是作者在备战22年美赛的时对word编辑公式的资料收集和总结，基本上涵盖了在word环境下进行公式编辑的方方面面。

2022-02-15 22:19:04 4167 1

原创简易数据库学习环境的搭建

本博客主要介绍了在Windows下如何搭建一个简易的数据库学习环境

2022-02-13 22:11:21 1295

原创傅里叶变换的推导

本篇博客从傅里叶级数出发，经过一系列的公式变换得到了傅里变换公式。

2022-02-10 21:36:25 3692

原创概率论常用公式

概率论常用公式

2021-11-12 17:01:51 4788

原创严蔚敏《数据结构（C语言版）》第四章纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-10-10 16:38:16 254

原创数值分析笔记（二）：线性方程组的数值解法

直接法追赶法对于系数阵为三对角阵A=[b1c1a2b2c2a3b3c3⋱⋱⋱an−1bn−1cn−1anbn]A=\begin{bmatrix}b_1 & c_1 \\a_2 & b_2 & c_2\\& a_3 &b_3 &c_3 \\& & \ddots & \ddots &\ddots \\& & & a_{n-1} &b_{n-1} & c_{n-1}\\&am

2021-10-04 09:41:41 369

原创数值分析笔记（一）：方程求根

文章目录根的搜索迭代法收敛性的判断收敛速度加速迭代Newton法（切线法）Newton法的改进Newton下山法根的搜索逐步搜索在给定区间[a,b][a, b][a,b]上从左端点x=ax=ax=a开始，按照步长hhh一步一步取f(x0)f(x_0)f(x0)和f(x0+h)f(x_0+h)f(x0+h)，如果发现成立f(x0)⋅f(x0+h)≤0f(x_0)\cdot f(x_0+h)\leq 0f(x0)⋅f(x0+h)≤0则在区间[x0,x0+h][x_0,x_0+h][x0,x

2021-10-01 15:24:38 1040

原创流畅的python读书笔记④：文本和字节序列

人类使用文本，计算机使用字节序列。——Esther Nam 和 Travis Fischer“Character Encoding and Unicode in Python”

2021-09-23 21:54:52 271

原创严蔚敏《数据结构（C语言版）》第三章纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-09-17 21:12:02 419

原创严蔚敏《数据结构（C语言版）》第二章纯C实现

这个系列文章我将用纯c语言来实现严书上的内容。文章中所有代码在博主电脑上均能正常运行。ps:严蔚敏的数据结构是目前我读过的最恶心的有关技术类的书籍

2021-09-09 17:23:32 475

原创从零开始的爬虫生涯（五）：re正则表达式详解

文章目录前言正则表达式简介示例1. re库的函数1.1 match和search1.2 findall和finditer前言工欲善其事，必先利其器。这篇文章我们将一起学习处理爬取到数据的一种强大的工具：正则表达式。正则表达式简介正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模

2021-09-04 22:46:35 477

原创流畅的python读书笔记③：字典和集合

字典这个数据结构活跃在所有 Python 程序的背后，即便你的源码里并没有直接用到它。——A. M. Kuchling

2021-08-19 20:57:28 378 1

原创从零开始的爬虫生涯（四）：通过API爬取B站弹幕

文章目录前言需要爬取的页面展示思路分析1.页面源码分析2.爬虫思路爬虫代码1.开发环境2.代码分解（1）.引入库（2）.获取每张图片的地址（3）.保存图片到指定文件夹3.整体代码爬取结果前言这篇文章我们将借助b站的api来爬取B站视频的弹幕相关文章请看从零开始的爬虫生涯（二）：爬取小姐姐的照片②从零开始的爬虫生涯（三）：爬取小姐姐的照片③需要爬取的页面展示思路分析1.页面源码分析首先我们先查看页面源码发现他的图片url全都放在一个类为entry-content的div块中，那么

2021-08-03 17:58:32 2201 1

原创流畅的python读书笔记②：序列构成的数组

文章目录2.1 内置序列类型按存放数据类型分类按是否能被修改来分类2.2 列表推导和生成器表达式2.2.1 列表推导和可读性代码2-1 把一个字符串变成Unicode码位的列表声明2.1 内置序列类型按存放数据类型分类容器序列——存放的是它们所包含的任意类型的对象的引用，有：list（列表）、tuple （元组）和 collections.deque （双向列表）。扁平序列——存放具体的值，显然，扁平序列更加紧凑，但是其仅能存放如字符、字节、数值等基础数据类型，有：str（字符串）、bytes（字

2021-08-01 22:18:22 302

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄7年

44
原创

454
点赞

524
收藏

268
粉丝

关注

私信

热门文章

分类专栏

论文阅读 17篇
笔记 3篇

最新评论

【软件配置】不使用ROS系统，不进行编译，纯python环境配置rosbag，从而解析.bag文件
fishfuck: 你可以试试我只是用python进行解包但是理论上是能打包的
【软件配置】不使用ROS系统，不进行编译，纯python环境配置rosbag，从而解析.bag文件
GWT990126: 纯python处理，能不能用离线数据进行.bag打包呢？
论文阅读：（TPVFormer）Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：MonoScene: Monocular 3D Semantic Scene Completion
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

提示

确定要删除当前文章？

取消删除