辰阳星宇-CSDN博客

原创【DeepResearch】WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

提出了一种数据合成方案、训练的改良、结合了TTS，并行生成多个研究报告，最后再让一个Agent进行整合。

2025-09-21 20:53:23 306

原创【数组】求两个匀速运动质点的相交或最小距离

两个质点初始位置，朝向角和速度分别为：（x0,y0,yaw0,v0），（x1,y1,yaw1,v1），它们在t=0时刻匀速直行运动，问它们是否会在同一时刻相交，如果不会，找出它们距离最小的时刻。相交判断距离小于1e-6，算法要求高效。

2025-09-18 20:12:25 891

原创【Agent Tool】Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Tool-Star: 基于强化学习的多工具协同推理框架 Tool-Star提出了一种新型强化学习框架，使大型语言模型能够自主调用多个外部工具进行渐进式推理。为解决工具使用数据稀缺问题，该研究开发了TIR数据合成管道，包含三个关键步骤：(1)通过提示采样和工具调用标记自动解析构建初始数据集；(2)实施工具调用频率控制、去重和格式规范化等质量管控措施；(3)基于难度感知将数据分为简单推理、工具集成推理和困难案例三类。训练采用两阶段方案：先进行冷启动微调建立基础能力，再通过内存缓存式Rollout和层次化奖励（正

2025-09-15 14:10:15 707

原创【Agent】WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

BrowseComp-VL是为在现实网络环境中运行的高级多模态推理代理而设计的。BrowseComp-VL被组织成5个主要领域，包括17个细粒度的子领域。（1.自然科学与形式科学(化学、物理、生物与医学、数学)，2.工程与计算机科学(工程、计算机科学与人工智能)，3.社会科学与人文科学(社会科学、历史、政治、地理)，4.艺术、娱乐与体育(艺术、音乐、电视、游戏、体育)，5.其他）Level 1：问题需要多跳推理，但仍然引用显式实体。

2025-09-10 11:19:59 1072

原创【Agent】GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GLM-4.5，这是一个开源的混合专家(MoE)大型语言模型，具有355B总参数和32B激活参数，具有支持思考和直接响应模式的混合推理方法。通过对23T令牌进行多阶段训练，并结合专家模型迭代和强化学习进行全面的后训练，GLM-4.5在代理、推理和编码(ARC)任务中取得了较强的性能。引入了构建多个专家多轮多轮迭代优化SFT冷启动数据，RL阶段，基于困难度的课程学习，在长度为64K的单阶段RL，动态采样温度，代码和科学RL。任务一个通用智能体的核心能力有三个：（1）与外部工具和现实世界互动的智能体能力；

2025-09-05 16:08:50 1012

原创【Agent】LongCat-Flash Technical Report

提出了两个部分的改进。1）引入零计算专家，输出等于输入，和其他专家在同一层级中。用于在简单token生成时候减少参数计算的开销。每次激活K个专家，难的token激活的非零专家会更多，计算参数会更多，简单的会激活的零专家会增多，计算参数减少。通过快捷连接MoE架构克服共享专家架构与单个专家计算的通信重叠。实验发现，引入快捷连接后性能与不引入相比几乎没有多少损失。在预训练方面，介绍了Tokenizer、训练稳定性、预训练数据过滤、长文能力增强等。

2025-09-04 11:41:51 438

原创【Agent】Kimi K2: Open Agentic Intelligence

Kimi K2，参数量为1T，激活参数为320亿参数的MoE模型。利用标记高效的MuonClip优化器和15.5 T标记高质量数据集（主要涉及：Web文本、代码、数学和知识）进行预训练。构建工具合成和用户问题合成Pipline，使用3000+真实MCP工具，合成20000种工具，在SFT阶段训练智能体工具使用能力。在RL阶段，训练数学、STEM和逻辑推理领域能力。

2025-09-03 15:13:43 958

原创【Agent】Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic

对多工具多场景下使用一个Agent模型去解决当前需要多Agent解决的问题进行探索。分别在Web Agent场景和Code Agent场景下进行了尝试，通过使用MAS来生成采样轨迹，将数据轨迹转化为设计的标签进行包裹，之后分别使用SFT和DAPO进行训练，构建成一个端到端的Agent模型。实验结果发现，整体性能均优于现有方法。

2025-09-02 14:49:56 1022

原创【Agent】AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents

摘要：AutoAgent是一个轻量级多智能体系统，支持动态创建和修改工具、代理及工作流以满足用户需求。其核心包含四个组件：(1) Agentic System Utilities提供基础工具集，包括协调代理、Web代理、编码代理和本地文件代理；(2) LLM-powered Actionable Engine利用标准化接口调用100+模型，支持直接工具使用和XML转换范式；(3) Self-Managing File System通过向量数据库管理多模态数据；(4) Self-Play Agent Cust

2025-08-28 15:39:36 933

原创 215、【数组】交易逆序对（Python）

交易逆序对指的是在数组中，如果前面的元素大于后面的元素，则这两个元素组成一个逆序对。例如，在数组[9, 7, 5, 4, 6]中，逆序对有(9, 7)、(9, 5)、(9, 4)、(9, 6)、(7, 5)、(7, 4)、(7, 6)、(5, 4)，共8个。求逆序对数。

2025-08-11 20:28:51 175

原创修改Langchain中invoke和ainvoke解决TPM超额问题

【代码】修改Langchain中invoke和ainvoke解决TPM超额问题。

2025-07-25 09:58:07 208

原创【基座模型】Qwen3报告总结

Github: Qwen3（1）扩展语言类型和数据领域种类。（2）数据合成：使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。（1）长COT冷启动数据：包含数学、代码、逻辑推理、通用STEM问题等，每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证（涉及多个子问题或者通用文本生成能力）和不需要COT就可以回答的问题。（2）RL推理数据收集3995个在冷启动没有出现过的覆盖范围广泛的数据。（3）思考

2025-07-18 17:40:07 469

原创基于LangGraph的react_agent的源码解析

【代码】基于LangGraph的react_agent的源码解析。

2025-07-06 16:37:25 440

原创解决基于LangGraph框架的DeerFlow使用Qwen3不能正常被解析的问题

修改了JsonOutputParser类的parse_result()方法，添加了对Qwen3模型固定输出<think>标签的处理逻辑。当检测到文本中包含<think>时，会移除该标签及其内容，只保留</think>之后的部分再进行JSON解析。同时保留了原有的部分解析和完整解析逻辑，以及异常处理机制。

2025-06-06 19:28:12 391

原创【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Meta 推出的 MLGym 框架及配套基准 MLGym-Bench，为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境，MLGym 支持强化学习等算法对代理的训练，其模块化设计涵盖Agent、环境、数据集和任务四大核心组件，允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务，共13个跨领域的开放式任务，覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时，对性能和开销进行了多维度评价。

2025-05-27 20:45:16 814

原创自注意力机制、多头自注意力机制、填充掩码 Python实现

【代码】自注意力机制、多头自注意力机制、填充掩码 Python实现。

2025-04-21 22:06:10 351

原创 214、【数组】下一个排列（Python）

从后往前，找到第一个小于右侧集合的数，从右侧集合中找到一个比该数大的最小的数替换上去。然后，将右侧集合从小到排列，就为当前排列中，下一个排列的数。

2025-04-14 17:29:37 305

原创 213、【图论】有向图的完全联通（Python）

【代码】213、【图论】有向图的完全联通（Python）

2025-04-13 22:22:55 350

原创 212、【图论】字符串接龙（Python）

【代码】212、【图论】字符串接龙（Python）

2025-04-10 22:42:08 398

原创刷代码题中Python常用函数和库总结

2025-03-28 12:09:07 226

原创 211、【图论】建造最大岛屿（Python）

【代码】211、【图论】建造最大岛屿（Python）

2025-03-24 23:42:14 416

原创 210、【图论】课程表（Python）

这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系，找到入度为0的点作为起始遍历点。之后每遍历到这个点之后，就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时，继续被加入其中开启下一轮遍历。当遍历完后，如果还有剩余点的话，则说明不满足拓扑要求。

2025-03-20 20:52:28 336

原创 209、不大于n的数的组合（python）

已知一个数n和可组合的数字集合s，通过组合数字集合构成一个数x，使其不大于n。

2025-03-17 22:37:57 255

原创 208、【数值模拟】计算圆周率（Python）

不使用math库，计算出圆周率。

2025-03-17 18:48:18 369

原创 207、【图论】孤岛的总面积

相比于，就是在这个代码的基础上。先遍历边界，将边界连接的岛屿变为0，然后再计算一遍当前为1的岛屿面积。

2025-03-12 23:45:17 425

原创 206、【图论】岛屿数量

【代码】206、【图论】岛屿数量。

2025-03-09 22:48:47 352

原创 205、【数组】NLP分词实现（Python）

给定一个词典，比如[“杭州”,“西湖”,“博物馆”,“杭州西湖博物馆”,“我”]对于输入的文本进分词：我在杭州的杭州西湖博物馆玩了一天分词结果处理为如下形式的字符串: 我\W 在杭州\W 的杭州西湖博物馆\W 玩了一天对于输入的文本进分词：我在杭州的杭州西湖博物玩了一天分词结果处理为如下形式的字符串: 我\W 在杭州\W 的杭州\W 西湖\W 博物玩了一天。

2025-02-26 21:56:16 370

原创【Reasoning】o1复现整合

arxiv: https://arxiv.org/abs/2411.14405github: https://github.com/AIDC-AI/Marco-o1Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutionsarxiv: https://arxiv.org/abs/2410.02884github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://git

2025-02-19 17:09:53 667

原创【Reasoning】O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Pr

arxiv: https://arxiv.org/abs/2411.16489github: https://github.com/GAIR-NLP/O1-Journey复刻o1的能力成为工业和学术界引人注目的焦点，作者在探索复制o1工作时，发现一种简单而有效的方式：通过prompt促使o1对复杂问题生成长思维链，对其进行知识蒸馏。将得到的数据进行SFT训练后，发现效果可以超越o1-preview模型。作者的o1复制旅程的第一部分中，引入了一种新的方法来综合称为“旅程学习”的长思维过程。该方法利用树搜索算

2024-12-07 16:13:57 718

原创【Reasoning】Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine wi

通过将MCTS的系统探索能力与大型语言模型的Self-Refine和Self-Evaluation相结合，创建出了一个更鲁棒的的框架，以解决当前大型语言模型难以解决的复杂推理任务。：在更新所有节点的Q值之后，我们确定候选节点的集合C，以便进一步扩展或选择，然后使用UCT更新公式更新下一个选择阶段所有节点的UCT值。其中Q′(a)为考虑子节点影响的答案a的更新值，Q(a)为只考虑其奖励样本的原始质量值，其中Q(a)是答案a的Q值，N(·)是给定节点的总访问次数，c是平衡探索和利用的常数，

2024-12-06 14:55:32 1180

原创【Reasoning】LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

复杂的数学推理，特别是奥林匹克级别的题对大语言模型来说仍然具有很大挑战。在现有的研究中：本文LLaMA-Berry框架通过将Self-Refine应用于Monte Carlo Tree Search (SR-MCTS)，显著提高了大型语言模型的解生成效率，然后以有向图的形式构建一个全局输赢矩阵来计算最终的分位数分数，结合PPRM将绝对评分转换为偏好预测任务，构建了解决方案之间的偏好，并且使用增强EBC方法计算得到最终的全局分位得分

2024-12-05 15:07:46 1295

原创【Reasoning】Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutions

微调、MCTS、反思机制和创新推理策略等技术为Marco-o1模型提供了支持，本文的主要目标是探索：o1模型能否有效地推广到缺乏明确标准且奖励难以被量化的更广泛的领域。为了复现o1，文章主要做了下述事情：构建了三类SFT数据集，前两个是为了增强推理能力，最后一个是为了维持模型在广泛任务下保持优质的推理能力。将LLM与MCTS集成在一起，增

2024-12-05 15:03:52 824

原创【Reasoning】Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision

arxiv: https://arxiv.org/abs/2406.06592COT和SC-COT对于模型推理能力的提升仍然有效，已有研究提出用一个验证器去帮助LLM提升推理能力。采用ORM结果验证器岁可以对最终结果生成一个信号，但是不能去奖励或者惩罚中间步骤。采用PRM可以对中间步骤在更细粒度的视角下，对中间步骤进行奖励或者惩罚。受到AlphaGo Zero的启发，本文提出了一个分而治之的蒙特卡洛树搜索算法OmegaPRM，来有效的收集高质量过程监督数据。这篇论文提出了一种名为OmegaPRM的新型分治风

2024-12-05 15:00:04 1396

原创【SFT】Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning

从LLM的评估能力和自我增强的当代范式中获得灵感，本文使用『反思-循环』机制在指定的标准下反思评估并对当前数据集进行改进。指令部分，作者发现Alpaca的指令经过本文方法后会被增长，而WizardLM的会被缩短。本文从指令长度、生成响应长度、指令困惑度、没有相关指令下响应的困惑度、有相关指令下响应的困惑度、连贯性、指令遵循难度评分这几个维度对比了原始chat模型和用本文方法SFT后的模型性能上的区别。标准包括：主题的复杂性、回应所需的细节程度、回应所需的知识、指令的模糊程度、是否设计逻辑推理或解决问题。

2024-10-23 15:28:54 760

原创【Prompt Engineer】TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE MODELS

arxiv: https://arxiv.org/abs/2310.06117LLM在生成COT的推理中可能会出现过程错误。为了减少错误，本文引入了Step-Back Prompting来增强模型的推理能力。PaLM-2L、GPT-4few-shot的PaLM2-L，评判正确答案和预测答案是否等效。“Yes”或“No”是返回值。few-shot实验结果可以发现Step-Back提升效果明显示例的变化，对于性能提升影响不大。因此，1-shot就够了。分为五类错误：（2）Knowledge QA对比基线

2024-10-18 16:53:24 644

原创【Dialog system】Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification

根据不同的应用，对话策略可以是粗的对话行为标签，也可以是细粒度的策略标签。其中，bargain price是卖方当前愿意出售该物品的价格，buyer target price是买房当前愿意购买该物品的价格，listed price是当前物品的标价。基于LLM的对话系统无法预测适当的谈判策略和对话行为。其中，D是背景信息，C是历史对话记录，A是可能的对话行为（例如，澄清问题或者直接回答）。基于LLM的对话系统在对话积极主动性方面存在局限性，不能对模棱两可的问题提出澄清、不能拒绝有问题的用户请求。

2024-10-17 13:28:02 1021

原创【Agent】Cognitive Architectures for Language Agents

arxiv: https://arxiv.org/abs/2309.02427现有的Agent框架，大部分是基于强化学习提出的框架。本文结合生产系统和认知科学，提出了一个结构化和模块化的Agent架构。记忆可分为两类：认知架构分为三个组件：决策过程分为两步基础动作执行外部动作并将生成的环境反馈作为文本输入给工作记忆。外部环境分为三类：检索过程从长期记忆中读取信息放至工作记忆中。《Generative agents: Interactive simulacra of human behavior.》通过结合近

2024-10-08 16:34:50 1188

原创【Preference Learning】Reasoning with Language Model is Planning with World Model

用自然语言在prompt中定义状态和动作。根据定义的状态和动作，将推理过程描述为马尔可夫过程（MDP）。

2024-09-29 17:53:06 1470

原创【Prompt Enginner】Tree of Thoughts: Deliberate Problem Solving with Large Language Models

现有的方式在思考过程中，缺乏对多种不同结果的思考延伸，并且缺乏规划、展望和回溯来帮助评估不同选择的结果。为启发式的增强推理能力，作者引入树形启发式思考框架TOT。

2024-09-13 18:51:42 296

原创【Preference Learning】Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

在推理过程中使用TOT方式可以增加推理性能，但由于增加了推理次数，导致耗时过大。目前待解决的问题是如何能在推理时既保持很好的推理能力，又保持推理耗时不会过大。

2024-09-13 18:49:16 1193

sensor_data-Copy1.csv

该.csv文件可被作为car-sensor模拟数据，可用来作车联网项目的模拟数据进行测试。

2020-04-25

物体运动终端检测系统设计.pdf

本文详细的书写了如何实现使用树莓派3B系列作为硬件，QT平台作为软件设计开发了运动检测终端，使用ADXL345三轴加速度传感器来采集物体的运动加速度，通过卡尔曼滤波算法对所采集的数据进行预处理，再利用加速度与相对倾角公式得到了物体运动过程中相对于自然坐标系的倾角角度。通过调用QCustomplot库将加速度数据转换为二维坐标系下的曲线进行动态实时的可视化呈现，同时也可将加速度曲线图存储到本地文件夹内。在数据的三维可视化方面，使用OpenGL将所获得的倾角数据作为参数从而构建出三维物体动态实时变化的运动姿态。实际完成的项目，根据步骤可以实现。（wangxingding）

2021-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人