自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

STAR GAME

========游戏开始========

  • 博客(463)
  • 资源 (2)
  • 收藏
  • 关注

原创 python代码修复字符串json数据格式问题,并将其按照字典形式读取

摘要: 这段代码实现了JSON字符串的自动修复与递归解析功能。aggressive_json_load函数处理残缺JSON字符串,通过括号平衡补齐和尾部垃圾字符截断两种策略修复数据;universal_cleaner函数递归扫描数据结构(字典/列表),自动解析嵌套的JSON字符串。示例展示了混合处理带垃圾字符的JSON字符串和正常字典的能力,适用于非标准JSON数据的容错解析场景。(150字)

2026-01-26 17:26:11 155

原创 【工具调用】BFCL榜单数据分析

模型应该输出一些与用户查询相关的函数调用(一个或多个),我们不检查此类别中函数调用的正确性(例如,正确的参数值)。● function relevance detection:在函数相关性检测中,设计的场景中所提供的工具都与query不相关,不应该被调用。● Irrelevance detection:在函数相关性检测中,设计的场景中所提供的工具都与query不相关,不应该被调用。● 评估有关预填充内存的问题:在评估阶段,最终的内存快照是 加载,模型呈现有针对性的后续 问题(例如,“下周末我要去哪里度假?

2026-01-21 16:12:04 1235

原创 【MLE】Benchmark 总结

arxiv:code:简介Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。

2026-01-21 14:34:21 1006

原创 【MLE】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。

2026-01-21 14:29:59 603

原创 【工具调用】工具调用后训练参数设计方案总结

2026-01-21 14:06:03 209

原创 【数据合成】Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environment

● 对每个问题生成独立工具时候,会出现工具相似冗余问题需要根据工具文档描述D进行去重,融合重叠的功能。● 生成的工具经常会出现较为简单的函数和有限的参数集,需要进行复杂度扩展。○ 采用关联的问题Q和答案A进行验证执行,对于不正确的输入,要可以给出适当的错误消息。○ 功能泛化:将每个工具的功能扩展到其原始子问题之外,以涵盖更广泛的任务范围。○ 工具集扩展:引入额外的非必要工具,增加工具选择的复杂度,提升环境整体难度。○ 并行多跳:包含独立的子问题和顺序依赖关系子问题的并行结构。○ 单跳:仅包含一个子问题。

2026-01-21 13:57:18 279

原创 【工具调用】数据集总结

本文汇总了多个关于工具增强型语言模型(LLM)的最新研究,重点介绍它们在API调用和多轮交互方面的创新。AgentBank提出了5万+轨迹调优数据集,FunReason-MT开发了多轮函数调用框架,Gorilla和ToolLLM分别连接了海量API(16,000+),API-Bank则提供了全面的评估基准(73个API)。这些研究通过数据合成、轨迹调优和专用训练集(如ToolDial的多轮对话集)显著提升了LLM的工具使用能力,其中微调模型(如Lynx、ToolLLaMA)性能接近GPT-3.5水平。核心挑

2026-01-21 13:55:24 746

原创 【工具调用】Benchmark总结

简介:函数调用,也称为工具使用,是指大型语言模型调用外部函数、api或用户定义工具的能力,这是代理大型语言模型应用程序的基本功能。尽管它很突出,但由于两个原因,还没有一个标准的基准来评估函数调用:评估函数调用何时有效具有挑战性,以及获取各种实际函数的挑战。我们提出伯克利函数调用排行榜(BFCL),一个全面的基准,旨在评估函数调用在广泛的现实世界的设置。BFCL基准测试使用一种新颖的抽象语法树(AST)评估方法评估各种编程语言之间的串行和并行函数调用,该方法可以轻松扩展到数千个函数。

2026-01-21 13:48:16 803

原创 大模型模型训练参数指导

数据量推荐 LR原因1k–10k1e-6–5e-6防止过拟合与灾难性遗忘10k–50k5e-6–1e-5格式学习 + 稳定泛化50k–300k1e-5(标准)最稳、最常用、适用所有模型300k–1M5e-6–8e-6防止大规模训练导致模式坍缩1M–10M3e-6–6e-6防止破坏预训练能力。

2025-12-08 14:55:33 1161

原创 【Agent】rStar2-Agent: Agentic Reasoning Technical Report

Microsoft Research提出,这是一个基于14B预训练模型、通过智能体强化学习(agentic RL)训练的数学推理模型,核心创新包括GRPO-RoC算法(结合重采样策略解决代码环境噪声问题)、支持45K并发工具调用且平均延迟0.3秒的大规模RL基础设施,以及“非推理SFT+多阶段RL”的高效训练方案(仅用64块MI300X GPU、510个RL步骤、1周完成训练)。该模型在数学推理任务上表现卓越,AIME24 pass@1达80.6%、AIME25达69.8%

2025-12-04 17:39:19 958

原创 Pytorch实现熵值计算

【代码】Pytorch实现熵值计算。

2025-11-28 18:40:08 225

原创 VERL获取全局步数代码修改

然后,给compute_socre里加入一个传递参数step即可。进入score之前,将步数信息,传递给extra_info字典。通过batch.meta_info传入步数信息。在进入奖励函数之前,加入。,如果是dapo,进入。在 1038 行加入。

2025-10-24 12:28:57 292

原创 【DeepResearch】WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

提出了一种数据合成方案、训练的改良、结合了TTS,并行生成多个研究报告,最后再让一个Agent进行整合。

2025-09-21 20:53:23 621

原创 【数组】求两个匀速运动质点的相交或最小距离

两个质点初始位置,朝向角和速度分别为:(x0,y0,yaw0,v0),(x1,y1,yaw1,v1),它们在t=0时刻匀速直行运动,问它们是否会在同一时刻相交,如果不会,找出它们距离最小的时刻。相交判断距离小于1e-6,算法要求高效。

2025-09-18 20:12:25 997

原创 【Agent Tool】Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Tool-Star: 基于强化学习的多工具协同推理框架 Tool-Star提出了一种新型强化学习框架,使大型语言模型能够自主调用多个外部工具进行渐进式推理。为解决工具使用数据稀缺问题,该研究开发了TIR数据合成管道,包含三个关键步骤:(1)通过提示采样和工具调用标记自动解析构建初始数据集;(2)实施工具调用频率控制、去重和格式规范化等质量管控措施;(3)基于难度感知将数据分为简单推理、工具集成推理和困难案例三类。训练采用两阶段方案:先进行冷启动微调建立基础能力,再通过内存缓存式Rollout和层次化奖励(正

2025-09-15 14:10:15 933

原创 【Agent】WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent

BrowseComp-VL是为在现实网络环境中运行的高级多模态推理代理而设计的。BrowseComp-VL被组织成5个主要领域,包括17个细粒度的子领域。(1.自然科学与形式科学(化学、物理、生物与医学、数学),2.工程与计算机科学(工程、计算机科学与人工智能),3.社会科学与人文科学(社会科学、历史、政治、地理),4.艺术、娱乐与体育(艺术、音乐、电视、游戏、体育),5.其他)Level 1:问题需要多跳推理,但仍然引用显式实体。

2025-09-10 11:19:59 1314

原创 【Agent】GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

GLM-4.5,这是一个开源的混合专家(MoE)大型语言模型,具有355B总参数和32B激活参数,具有支持思考和直接响应模式的混合推理方法。通过对23T令牌进行多阶段训练,并结合专家模型迭代和强化学习进行全面的后训练,GLM-4.5在代理、推理和编码(ARC)任务中取得了较强的性能。引入了构建多个专家多轮多轮迭代优化SFT冷启动数据,RL阶段,基于困难度的课程学习,在长度为64K的单阶段RL,动态采样温度,代码和科学RL。任务一个通用智能体的核心能力有三个:(1)与外部工具和现实世界互动的智能体能力;

2025-09-05 16:08:50 1295

原创 【Agent】LongCat-Flash Technical Report

提出了两个部分的改进。1)引入零计算专家,输出等于输入,和其他专家在同一层级中。用于在简单token生成时候减少参数计算的开销。每次激活K个专家,难的token激活的非零专家会更多,计算参数会更多,简单的会激活的零专家会增多,计算参数减少。通过快捷连接MoE架构克服共享专家架构与单个专家计算的通信重叠。实验发现,引入快捷连接后性能与不引入相比几乎没有多少损失。在预训练方面,介绍了Tokenizer、训练稳定性、预训练数据过滤、长文能力增强等。

2025-09-04 11:41:51 627

原创 【Agent】Kimi K2: Open Agentic Intelligence

Kimi K2,参数量为1T,激活参数为320亿参数的MoE模型。利用标记高效的MuonClip优化器和15.5 T标记高质量数据集(主要涉及:Web文本、代码、数学和知识)进行预训练。构建工具合成和用户问题合成Pipline,使用3000+真实MCP工具,合成20000种工具,在SFT阶段训练智能体工具使用能力。在RL阶段,训练数学、STEM和逻辑推理领域能力。

2025-09-03 15:13:43 1254

原创 【Agent】Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic

对多工具多场景下使用一个Agent模型去解决当前需要多Agent解决的问题进行探索。分别在Web Agent场景和Code Agent场景下进行了尝试,通过使用MAS来生成采样轨迹,将数据轨迹转化为设计的标签进行包裹,之后分别使用SFT和DAPO进行训练,构建成一个端到端的Agent模型。实验结果发现,整体性能均优于现有方法。

2025-09-02 14:49:56 1237

原创 【Agent】AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents

摘要:AutoAgent是一个轻量级多智能体系统,支持动态创建和修改工具、代理及工作流以满足用户需求。其核心包含四个组件:(1) Agentic System Utilities提供基础工具集,包括协调代理、Web代理、编码代理和本地文件代理;(2) LLM-powered Actionable Engine利用标准化接口调用100+模型,支持直接工具使用和XML转换范式;(3) Self-Managing File System通过向量数据库管理多模态数据;(4) Self-Play Agent Cust

2025-08-28 15:39:36 1087

原创 215、【数组】交易逆序对(Python)

交易逆序对指的是在数组中,如果前面的元素大于后面的元素,则这两个元素组成一个逆序对。例如,在数组[9, 7, 5, 4, 6]中,逆序对有(9, 7)、(9, 5)、(9, 4)、(9, 6)、(7, 5)、(7, 4)、(7, 6)、(5, 4),共8个。求逆序对数。

2025-08-11 20:28:51 230

原创 修改Langchain中invoke和ainvoke解决TPM超额问题

【代码】修改Langchain中invoke和ainvoke解决TPM超额问题。

2025-07-25 09:58:07 282

原创 【基座模型】Qwen3报告总结

Github: Qwen3(1)扩展语言类型和数据领域种类。(2)数据合成:使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。(1)长COT冷启动数据:包含数学、代码、逻辑推理、通用STEM问题等,每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证(涉及多个子问题或者通用文本生成能力)和不需要COT就可以回答的问题。(2)RL推理数据收集3995个在冷启动没有出现过的覆盖范围广泛的数据。(3)思考

2025-07-18 17:40:07 624

原创 基于LangGraph的react_agent的源码解析

【代码】基于LangGraph的react_agent的源码解析。

2025-07-06 16:37:25 887

原创 解决基于LangGraph框架的DeerFlow使用Qwen3不能正常被解析的问题

修改了JsonOutputParser类的parse_result()方法,添加了对Qwen3模型固定输出<think>标签的处理逻辑。当检测到文本中包含<think>时,会移除该标签及其内容,只保留</think>之后的部分再进行JSON解析。同时保留了原有的部分解析和完整解析逻辑,以及异常处理机制。

2025-06-06 19:28:12 541

原创 【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。

2025-05-27 20:45:16 979

原创 自注意力机制、多头自注意力机制、填充掩码 Python实现

【代码】自注意力机制、多头自注意力机制、填充掩码 Python实现。

2025-04-21 22:06:10 443

原创 214、【数组】下一个排列(Python)

从后往前,找到第一个小于右侧集合的数,从右侧集合中找到一个比该数大的最小的数替换上去。然后,将右侧集合从小到排列,就为当前排列中,下一个排列的数。

2025-04-14 17:29:37 346

原创 213、【图论】有向图的完全联通(Python)

【代码】213、【图论】有向图的完全联通(Python)

2025-04-13 22:22:55 447

原创 212、【图论】字符串接龙(Python)

【代码】212、【图论】字符串接龙(Python)

2025-04-10 22:42:08 473

原创 刷代码题中Python常用函数和库总结

2025-03-28 12:09:07 277

原创 211、【图论】建造最大岛屿(Python)

【代码】211、【图论】建造最大岛屿(Python)

2025-03-24 23:42:14 517

原创 210、【图论】课程表(Python)

这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系,找到入度为0的点作为起始遍历点。之后每遍历到这个点之后,就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时,继续被加入其中开启下一轮遍历。当遍历完后,如果还有剩余点的话,则说明不满足拓扑要求。

2025-03-20 20:52:28 423

原创 209、不大于n的数的组合(python)

已知一个数n和可组合的数字集合s,通过组合数字集合构成一个数x,使其不大于n。

2025-03-17 22:37:57 364

原创 208、【数值模拟】计算圆周率(Python)

不使用math库,计算出圆周率。

2025-03-17 18:48:18 427

原创 207、【图论】孤岛的总面积

相比于,就是在这个代码的基础上。先遍历边界,将边界连接的岛屿变为0,然后再计算一遍当前为1的岛屿面积。

2025-03-12 23:45:17 509

原创 206、【图论】岛屿数量

【代码】206、【图论】岛屿数量。

2025-03-09 22:48:47 402

原创 205、【数组】NLP分词实现(Python)

给定一个词典,比如[“杭州”,“西湖”,“博物馆”,“杭州西湖博物馆”,“我”]​对于输入的文本进分词:我在杭州的杭州西湖博物馆玩了一天​分词结果处理为如下形式的字符串: 我\W 在 杭州\W 的 杭州西湖博物馆\W 玩了一天​对于输入的文本进分词:我在杭州的杭州西湖博物玩了一天​分词结果处理为如下形式的字符串: 我\W 在 杭州\W 的 杭州\W 西湖\W 博物玩了一天。

2025-02-26 21:56:16 417

原创 【Reasoning】o1复现整合

arxiv: https://arxiv.org/abs/2411.14405github: https://github.com/AIDC-AI/Marco-o1Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutionsarxiv: https://arxiv.org/abs/2410.02884github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://git

2025-02-19 17:09:53 728

sensor_data-Copy1.csv

该.csv文件可被作为car-sensor模拟数据,可用来作车联网项目的模拟数据进行测试。

2020-04-25

物体运动终端检测系统设计.pdf

本文详细的书写了如何实现使用树莓派3B系列作为硬件,QT平台作为软件设计开发了运动检测终端,使用ADXL345三轴加速度传感器来采集物体的运动加速度,通过卡尔曼滤波算法对所采集的数据进行预处理,再利用加速度与相对倾角公式得到了物体运动过程中相对于自然坐标系的倾角角度。通过调用QCustomplot库将加速度数据转换为二维坐标系下的曲线进行动态实时的可视化呈现,同时也可将加速度曲线图存储到本地文件夹内。在数据的三维可视化方面,使用OpenGL将所获得的倾角数据作为参数从而构建出三维物体动态实时变化的运动姿态。 实际完成的项目,根据步骤可以实现。(wangxingding)

2021-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除