樱花的浪漫-CSDN博客

原创 MARFT: Multi-Agent Reinforcement Fine-Tuning

大型语言模型（LLMs）正越来越多地被部署为新一代自治智能体，能够执行需要决策、推理以及与复杂和动态环境互动的智能任务（Jin等，2024；Hong等，2024；Qian等，2024）。这些基于LLM的智能体正在迅速改变人机交互，并扩展自治系统的边界。除了强大的自然语言理解和生成能力（Chowdhary，2020），LLMs还可以执行检索增强生成（RAG）（Lewis等，2021），当与外部工具或API集成时，可以在计算机和移动平台上完成更复杂的任务（Erdogan等，2024；Zhang等，2025）。

2025-07-11 16:42:07 3

原创 Tuning Language Models by Proxy

尽管大型预训练语言模型的通用能力越来越强，但它们仍然可以从额外的微调中受益，以更好地实现所需的行为。例如，它们通常被微调以遵循指令（Ouyang等人，2022年）、特定的兴趣领域（Gururangan等人，2020年）或特定任务（Raffel等人，2020年）。然而，微调这些模型变得越来越资源密集，或者在模型权重是私有的情况下变得不可能（例如，GPT-4；OpenAI，2023年）。因此，如何有效地为不同用户和应用定制越来越大的语言模型仍然是一个挑战。

2025-07-06 16:25:12 74

原创 BPO: Towards Balanced Preference Optimization between KnowledgeBreadth and Depth in Alignment

带人类反馈的强化学习（Reinforcement Learning with Human Feedback，简称 RLHF）（Christiano 等，2017）在近年来大型语言模型（LLMs）的成功中发挥了关键作用。其目标是在大型语言模型的后训练阶段，通过利用大量人类标注者的成对反馈，使其与人类的价值观和偏好相一致。另一研究方向则从数据角度出发，旨在提升一致性过程。

2025-07-04 11:55:54 21

原创 EPO: Hierarchical LLM Agents with Environment PreferenceOptimization

长期决策和规划任务依然是基于大型语言模型（LLM）的智能体面临的一大挑战（Valmeekam 等，2023；Liu 等，2023；Silver 等，2024）。这些任务需要智能体进行多步骤的规划，同时保持行为的一致性和目标导向，这对于通常被设计用于即时和局部预测的大型语言模型来说颇为困难。此外，针对具身智能体的大型语言模型微调面临的一个关键难题是大规模标注数据的需求（Reed 等，2022）。

2025-07-04 11:06:58 34

原创 Plan-Grounded Large Language Models forDual Goal Conversational Settings

引导用户完成诸如烹饪或 DIY 之类的手动任务（Choi 等，2022），对于当前的大型语言模型（LLMs）来说是一个新颖且具有挑战性的领域。该问题之所以棘手，是因为现有的大型语言模型仅接受过遵循用户指令的训练，而在这一新场景下，指令会在对话的双方之间流动。（i）遵循一系列步骤计划，以及（ii）回答用户提出的各种指令。为应对这些联合目标，大型语言模型需要在程序性计划的背景下，同时与计划对齐并遵循用户指令，如图 1 所示。

2025-07-04 10:14:30 403

原创 Unlocking Decoding-time Controllability: Gradient-FreeMulti-Objective Alignment with Contrastive Pr

将基于庞大网络语料库训练的大型语言模型（LLMs）（OpenAI，2023；Touvron 等，2023；Google，2023）与人类偏好对齐，是减少产生不安全（Wei 等，2023）、幻觉（Zhang 等，2023b）和有偏见（Gallegos 等，2023）内容的重要一步。随着偏好学习技术（如 PPO（Schulman 等，2017）、DPO（Rafailov 等，2023）及其他变体（Azar 等，2023；Ethayarajh 等，2024；

2025-07-03 11:23:36 975

原创 A Deep Dive into the Trade-Offs of Parameter-EfficientPreference Alignment Techniques

大型语言模型（LLMs）在诸如总结、常识推理和开放式生成等各项任务上取得了类似人类的性能表现（Zhao et al., 2023）。这些LLMs拥有数十亿参数，并且是在从网络抓取的数万亿token上进行预训练的。LLMs的有利用途之一是以自主代理的形式出现，让它们遵循用户指令并符合特定的偏好要求（Wang et al., 2023a）。然而，预训练模型往往无法遵循指令，需要使用特别编排的偏好对齐数据集和方法来进行对齐，以实现泛化（Mishra et al., 2021）。

2025-07-03 10:16:45 13

原创 Instantly Learning Preference Alignment via In-context DPO

在大型语言模型（LLM）行业中，人类偏好对齐（HPA）至关重要，因为它可以防止LLM生成与人类价值观相悖的内容。目前，HPA的主流方法主要依赖于微调，例如RLHF（Stiennon等人，2020；Ouyang等人，2022；Zhu等人，2023）、RAFT（Dong等人，2023a）、RRHF（Yuan等人，2023）或DPO（Rafailov等人，2023）。然而，微调的巨大计算和标注成本不容忽视。因此，采用外部监督解码的无调参方法越来越受欢迎。

2025-07-02 10:12:46 18

原创 TTRL:Test-Time Reinforcement Learning

因此，策略模型自身估计的奖励信号可能为学习提供了更合适的指导。图 9：“幸运命中”的一个案例。我们展示了一个基本的数值预测场景，以比较在两种条件下奖励计算：当估计的标签不正确时与使用真实标签时。如图 9 所示，尽管估计的标签不正确，但一些错误预测仍然与错误标签不同，因此收到了正确的奖励（表示为 0）。

2025-06-30 11:32:33 227

原创 OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and

基于这些特点，OmniDrive 在架构设计上做出了更优的选择。

2025-06-29 12:18:58 26

原创 Critique-GRPO: Advancing LLM Reasoning withNatural Language and Numerical Feedback

强化学习（RL）一直是提升大型语言模型（LLMs）推理能力近期发展的关键驱动力。特别是具有数值反馈（通常是标量奖励形式）的强化学习，即R1-Zero训练范式，使基础大型语言模型能够通过反复试错从自身的生成结果中学习。高质量的生成结果会得到正面奖励，而低质量的生成结果则会被惩罚。这种范式革新了大型语言模型的后训练流程，从模仿专家示范的模仿学习转变为从模型自身的生成结果（即经验）中学习，从而显著提升了性能。（i）性能停滞：将训练样本数量扩大8倍（从4k增加到32k）无法提升峰值性能。

2025-06-29 10:37:38 23

原创 Test-Time Preference Optimization:On-the-Fly Alignment via Iterative Textual Feedback

大型语言模型（OpenAI，2023；Dubey 等，2024；Jiang 等，2024；Zhu 等，2024；Qwen 等，2025）在一系列下游任务中展现出令人印象深刻的性能。然而，由于这些模型是基于大量未标注文本进行训练的，如果不进行适当的对齐，它们可能会偶尔生成意外或不安全的回应。因此，许多方法旨在将大型语言模型与人类偏好对齐，以确保其输出既有助又有用。

2025-06-28 15:57:27 23

原创走进因果推断

简单来说，就是试图确定一个事件（因）是否导致了另一个事件（果）的发生，以及这种影响的程度有多大。它不同于简单的相关性分析，后者只是指出两个事件同时发生的频率，但并不能说明其中一个事件是另一个事件的原因。在日常生活中，你可能经常听到有人说：“我喝了咖啡后，工作效率就提高了。”这句话背后，其实就隐藏着一个因果推断——喝咖啡（因）可能导致了工作效率提高（果）。它更像是侦探工作，要找出哪些事情是真正有因果关系的，哪些只是碰巧一起发生。比如，夏天冰棍卖得多，电费也高，但这并不意味着冰棍卖得多导致了电费高。

2025-06-27 11:31:54 23

原创 Aligning as Debiasing: Causality-Aware Alignment via ReinforcementLearning with Interventional Feed

大型语言模型（LLMs）（Brown et al., 2020;Touvron et al., 2023）在生成流畅文本方面表现出非凡的能力，但同时也反映了偏见（Gallegos et al., 2023）。最近关于减少LLMs偏见输出的研究，例如减少攻击性、有毒和刻板印象的文本生成（Kadan et al., 2022;Xu et al., 2022），采用了将人类反馈纳入微调过程的方法，以使LLMs与人类价值观保持一致（Stiennon et al., 2020;

2025-06-27 10:14:48 18

原创 DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

场景描述（E）：由天气状况（E_weather）、时间（E_time）、道路状况（E_road）和车道状况（E_lane）组成。场景分析（S）：涵盖对象级分析和场景级总结。元动作（A）：代表任务级操作的动作序列。决策描述（D）：对驾驶决策的详细说明。轨迹航点（W）：勾勒出自车规划轨迹的航点。

2025-06-25 20:21:27 21

原创 Treatment Learning Causal Transformer for Noisy Image Classification

尽管深度神经网络（DNN）在许多图像识别任务[22、27、70、88]中的“准确性”已经超过人类水平，但目前的DNN仍然隐含地依赖于这样一个假设[59]，为了应对机器感知在噪声图像方面的挑战，我们从人类如何进行视觉识别中获得启发。人类的学习过程通常与逻辑推理（例如，从书籍中获取的符号定义）和表示学习（例如，查看视觉模式的经验）相结合。当前DNN与人类识别系统的一个显著差异在于因果推理的能力。

2025-06-25 16:22:18 38

原创 Large Language Models and Causal Inference in Collaboration: A Survey

在本节中，我们介绍因果推断的背景知识，包括任务描述、基本概念和符号以及通用解决方案。更多详细信息可在附录 A 中找到。因果推断旨在估计变量间的因果关系。感兴趣的变量被称为干预措施（treatment），而干预措施的效果则被称为干预效应理想情况下，可通过以下方式测量干预效应：对同一群体施加不同的干预措施，然后效果差异即为干预效应。然而，在许多情况下，完全受控的实验是不切实际的，需要从观察数据中估计干预效应。在识别和量化观察数据中的因果效应方面，最有影响力的框架之一是潜在结果框架潜在结果方法将因果性与对单元。

2025-06-24 14:55:54 21

原创大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models

英语和中文数学推理：我们对模型在英语和中文基准测试上进行了全面评估，涵盖从小学水平到大学水平的数学问题。英语基准测试包括 GSM8K（Cobbe 等，2021 年）、MATH（Hendrycks 等，2021 年）、SAT（Azerbayev 等，2023 年）、OCW 课程（Lewkowycz 等，2022 年）、MMLU-STEM（Hendrycks 等，2020 年）。

2025-06-24 14:54:54 192

原创 ELM:Embodied Understanding of Driving Scenarios

ELM 的核心在于 “具身理解”（Embodied Understanding），即通过常识与环境交互并进行推理，这一理念适用于自动驾驶车辆、机器人和无人机等多种应用场景。具身智能体（Embodied Agent）需具备四大核心能力：首先，它能够描述周围环境，对交通物体的属性、存在状态和运动情况进行准确刻画；其次，不仅能评估大致位置，还能在三维空间中精确定位特定物体，实现高精度的空间定位；再者，需要检索已发生的特定事件，具备强大的记忆能力；最后，能够根据给定的历史信息预测未来，为决策提供依据。

2025-06-17 20:48:20 32

原创 Causal-aware Large Language Models: Enhancing Decision-Making ThroughLearning, Adapting and Acting

随着像生成预训练变换模型（GPT）[Brown 等，2020] 和大型语言模型Meta AI（LLAMA）[Touvron 等，2023] 这样的大型语言模型（LLMs）的进步，这些模型在决策领域展现出了巨大的潜力 [Sun 等，2023；Yao 等，2023]。然而，这些预训练模型的主要任务是基于现有数据预测下一个词，这限制了它们在结构化推理和适应新环境方面的能力。这些限制阻碍了它们在现实世界中复杂决策任务中的有效性。因此，如何有效利用大型语言模型的能力来解决复杂任务仍然是一个持续的研究问题。

2025-06-17 10:56:05 26

原创 DriveLM: Driving with Graph Visual Question Answering代码实战

在感知阶段，核心问题包括当前场景中的重要物体有哪些、物体 X 的运动状态如何以及物体 X 的视觉描述等，这些问题旨在全面理解场景中的物体信息。预测阶段关注物体 X 的未来状态、物体 X 是否会出现在自车的行驶方向上，以及自车到达下一个可能位置时应首先 / 其次 / 第三注意哪些物体，以实现对环境变化的预判。规划阶段则聚焦于基于物体 X 的观察自车可采取哪些动作、自车哪些动作会导致与物体 X 碰撞，以及在该场景下自车的安全动作是什么，从而生成合理的驾驶决策。对于自车应注意物体的顺序问题，按匹配情况计算得分。

2025-06-16 17:42:30 223

原创 Counterfactual-Consistency Prompting for Relative TemporalUnderstanding in Large Language Models

尽管大型语言模型（LLMs）具有令人印象深刻的能力，但一系列研究（Jain 等，2023；Chu 等，2023）指出，这些模型常常缺乏时间推理能力，尤其在相对事件理解方面表现明显，即在不依赖绝对时间指示符（如具体日期）的情况下，推断事件或段落中事件的时间关系。主要挑战在于大型语言模型在响应时缺乏时间一致性（Qiu 等，2023；Chen 等，2024）。时间一致性被定义为模型确保冲突时间线不共存的能力。

2025-06-16 09:57:39 26

原创 DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

在控制信号预测任务中，DriveGPT4 的速度预测均方根误差（RMSE）为 1.30，转向角度 RMSE 为 8.98，优于消融实验中的其他配置。例如，仅使用 BDD-X 数据时，速度 RMSE 为 1.69，而结合 ChatGPT 数据和混合微调后，误差进一步降低，验证了多源数据与训练策略的有效性。，传统方法无法解释智驾系统的决策过程，用户难以理解车辆行为的依据。传统语言模型（如 BERT）因缺乏灵活性、泛化性且不支持视觉模态，无法提供合适的解释。车辆行为描述 (Qa)

2025-06-09 22:08:50 296

原创 Reasoning over Uncertain Text by Generative Large Language Models

文本中的不确定性在许多语境中传达，从日常对话到特定领域的文档（例如医学文档）（Heritage 2013；Landmark、Gulbrandsen 和 Sveneveig 2015）。处理这种不确定的信息至关重要。例如，文本中的不确定性已被证明显著影响生物医学领域的决策（Poggi 等，2019）。在不确定文本中进行推理也与理性推理密切相关，例如，如果事件 A 和 B 的概率较低，则这两者同时发生的概率应该也较低。因此，语言模型必须能够处理具有不确定性的文本，并基于此执行推理。

2025-06-08 10:24:56 221

原创 KTO: Model Alignment as Prospect Theoretic Optimization

本报告介绍了一种基于前景理论（Prospect Theory）的大型语言模型对齐方法 ——KTO（Kahneman-Tversky Optimization）。该方法通过设计人类感知损失函数（HALO），直接最大化模型生成的效用，而非依赖人类偏好数据的对数似然，旨在解决现有对齐方法（如 PPO、DPO）依赖高成本偏好数据的局限性。报告将从 KTO 的创新思路、理论基础、原理、核心代码、性能对比及消融实验等方面展开详细阐述。

2025-06-07 21:19:11 180

原创 Mitigating Social Bias in Large Language Models: A Multi-Objective ApproachWithin a Multi-Agent Fra

自然语言处理（NLP）随着大规模语言模型（LLMs）的发展而迅速进步，展示了生成类人文本的增强能力。然而，即便是先进的模型，也常常遇到生成公平且无偏见响应的困难（Shragvi et al., 2024;随着 LLMs 的规模不断扩大，社会偏见不仅浮现，而且有增加的趋势，这突显了需要有效去偏见方法的紧迫性（Ganguli et al., 2023）。

2025-06-07 16:25:56 38

原创 Text-Guided Fine-grained Counterfactual Inference for Short Video Fake NewsDetection

检测假新闻对于防止虚假信息传播和维护公众信任至关重要（DiFonzo 和 Bordia 2007；Jin 等人 2017；Jankowski 等人 2020）。如今，短视频平台成为传播假新闻的关键渠道。这些平台融合了图像、视频、音频、社交内容和评论等多种模态，各模态具有不同的格式和特征，使得新闻真实性评估愈发复杂。当前短视频假新闻检测研究主要集中在如何有效整合多模态信息，常用方法包括主题建模（Choi 和 Ko 2021）和协同注意力机制（Qi 等人 2023a）。

2025-06-07 15:30:27 32

原创 DPO算法微调实战

步骤描述1. 数据准备输入 prompt，带有 chosen 和 rejected 两个回答2. 模型前向获取策略模型和参考模型在这两个回答上的 log 概率3. 计算目标函数用对比对数比构造 sigmoid 损失函数4. 反向传播只更新策略模型的参数，参考模型保持冻结微调运行过程：通过网盘分享的文件：大模型链接: https://pan.baidu.com/s/1kZNFLPNevEKQnLGzhcDmrg?pwd=gfw7 提取码: gfw7。

2025-06-04 22:59:10 690

原创 DPO 算法

传统的 RLHF 通过奖励模型和 KL 散度约束来优化策略，而 DPO 直接利用偏好数据进行最大似然优化，避免了复杂的强化学习过程和奖励模型的显式训练，简化了流程，提高了效率。该模型有以下基本假设：每个项目或实体都有一个潜在的能力值，这个值反映了该项目在与其他项目比较时获胜的概率。Bradley - Terry 模型是一种用于比较和排序多个项目或实体的统计模型。它最初由 Ralph Bradley 和 Milton Terry 在 1952 年提出，主要用于体育比赛中的胜负预测。

2025-06-03 22:11:35 190

原创 PPO: Proximal Policy Optimization Algorithms

在多个 MuJoCo 环境上对 PPO（Clip）与其他算法（如 A2C、A2C+Trust Region、CEM、Vanilla PG、Adaptive TRPO 等）进行了性能对比，训练时长为一百万时间步，结果如图 3 所示，展示了不同算法在 HalfCheetah-v1、Hopper-v1、InvertedDoublePendulum-v1、InvertedPendulum-v1、Reacher-v1、Swimmer-v1、Walker2d-v1 等环境中的表现。ChatGPT 的训练分为三个步骤。

2025-06-03 14:53:29 40

原创 Revisiting Tampered Scene Text Detection in the Era of Generative AI

深度模型的快速发展引发了计算机视觉领域的生成式 AI 革命，在可控编辑方面取得了显著进展（Sun et al. 2023b；然而，生成式 AI 的进步也导致了恶意虚假文本图像信息的传播，对社会信息安全构成了严重威胁（Wang et al. 2022；因此，检测 AI 篡改文本已成为近年来的重要课题（Qu et al. 2024a）。开发有效的 AI 篡改文本检测方法至关重要。近期，Tampered-IC3 数据集（Wang et al. 2022）被引入，用于基准测试场景文本篡改检测方法。

2025-06-03 11:56:12 74

原创 Fighting Spurious Correlations in Text Classificationvia a Causal Learning Perspective

尽管神经网络在标准基准测试中表现出色，但在泛化到分布外（OOD）数据时常常遇到困难。一个主要原因是它们倾向于依赖与任务没有因果关系但与标签存在虚假关联的特征，这在数据分布变化时会降低模型的鲁棒性。例如，在自然语言推理（NLI）任务中，如果数据集中的矛盾句子经常包含否定词，那么在此数据集上训练的模型可能会仅根据否定词的存在来预测矛盾，而不是依赖于真实的底层特征。当遇到这种虚假关联不成立的数据时，模型很可能会做出错误的预测。先前的工作将数据划分为基于类别标签和虚假特征组合的不同组别。

2025-06-02 22:04:34 30

原创 Counterfactual Debiasing for Fact Verification

随着信息的急剧增加，在线未验证的声明变得普遍，这在各个领域（如公共卫生（Naeem and Bhatti, 2020）、政治（Allcott and Gentzkow, 2017）和经济（Kogan et al., 2019））对公共安全构成威胁。因此，事实核查，即基于收集到的几个证据自动预测声明真实性，引起了大量研究兴趣（Liu et al., 2020；

2025-05-27 15:36:00 48

原创 MRR-FV: Unlocking Complex Fact Verifcation withMulti-Hop Retrieval and Reasoning

事实验证（FV）旨在利用可信证据自主评估文本声明的真实性，这有助于打击虚假信息的扩散，并提高社交媒体的可靠性和可信度（Guo, Schlichtkrull, 和 Vlachos 2022；Zhang 等人 2025）。现有的 FV 模型通常遵循一个两阶段范式，包括证据检索和声明验证（Hu 等人 2023）。证据检索侧重于在庞大的语料库中精确定位关键的证据句（Chen 等人 2022a）。

2025-05-23 16:11:26 58

原创 Enhancing Relation Extractionvia Supervised Rationale Verifcation and Feedback

关系抽取（RE）任务旨在抽取文本中实体之间的语义关系，这是信息抽取中的一个重要任务。与基于小型语言模型的微调策略不同（Wu 和 He，2019），最近的研究（Wan 等，2023；Ma 等，2023）利用大型语言模型（LLMs）的强指令理解和丰富的内在知识（Ouyang 等，2022；Touvron 等，2023；Bai 等，2022）来提升 RE 的性能。尽管取得了显著进展，基于 LLM 的方法在执行关系抽取时可能会受到关系偏差的影响。

2025-05-22 21:29:01 326

原创 LLaMA-Adapter

这种零初始化注意力机制的目的是在训练初期稳定梯度，避免由于随机初始化的适配提示带来的不稳定因素。通过门控因子gl的自适应调整，在训练过程中逐渐平衡适配提示和输入文本的注意力贡献。

2025-05-21 22:22:30 202

原创 RaCMC: Residual-Aware Compensation Network with Multi-GranularityConstraints for Fake News Detectio

社交媒体的快速发展加速了自媒体的兴起，使普通人能够成为日常新闻的发布者。这加快了人们获取信息的速度。然而，这也导致了由于发布者断章取义、夸张和恶意篡改而引发的虚假信息的广泛传播，严重危害了社会安全与稳定。尽管国家机构与社交平台设立了新闻核查部门来区分真实和虚假新闻，但海量的新闻给新闻核查人员带来了沉重的负担。因此，自动假新闻检测成为研究热点。早期的方法是针对纯文本新闻设计的，旨在充分挖掘文本中的所有信息。例如，DSTS 方法设计了一种动态序列时间结构，旨在捕捉新闻传播过程中的时间变化特征。

2025-05-21 21:19:52 61

原创 Deconfound Semantic Shift and Incompleteness in Incremental Few-shot SemanticSegmentation

像素级标注在语义分割中的兴起推动了逐步扩展模型容量以学习新类别的方法需求，而无需重新训练整个模型。增量少样本语义分割（IFSS）能够在保留分割先前学习类别能力的同时，持续分割只有少量增量数据的新类别。语义偏移和语义不完整性。如图 1 (a) 所示，语义偏移是从增量语义分割（ISS）继承而来，其中先前学习步骤中的背景类可能在当前步骤转变为对象类，反之亦然。新信息的稀缺性和旧信息的不可访问性加剧了 IFSS 中的偏移，导致模型在旧知识和新知识上的认知混淆，并加剧了灾难性遗忘。

2025-05-19 11:20:46 45

原创 Is LLMs Hallucination Usable?LLM-based Negative Reasoning for Fake News Detection

近期，大型语言模型（LLMs），例如 GPT-4o、Claude 3 和 Llama 3.1，在人工智能领域，尤其是自然语言处理（NLP）方面取得了显著进展。这些在海量人类生成文本上训练的大型语言模型能够深入理解并解释提示，同时为这些提示生成全面、连贯且符合上下文的推理，从而使其适用于各种 NLP 下游任务，包括假新闻检测（Yang 等，2024；Bang 等，2023）。具体而言，大型语言模型可从多方面助力假新闻检测，涵盖上下文分析、内容理解、事实核查、来源验证、推理生成等（Liu 等，2024b；

2025-05-19 10:14:04 435

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

人工智能+Vectornet源码详解+博客资源

博客资源:clip-demo测试效果展示

博客资源+pandas相关代码

博客资源+seaborn相关操作

博客资源+Matplotlib绘图的基本使用

自然语言处理+情感分析+主题分析+词云图

数学建模+时间序列预测+LSTM+股票数据分析

python+词云图+自然语言处理

基于LeNet-5的手写体数字识别

空空如也