- 博客(463)
- 资源 (2)
- 收藏
- 关注
原创 python代码修复字符串json数据格式问题,并将其按照字典形式读取
摘要: 这段代码实现了JSON字符串的自动修复与递归解析功能。aggressive_json_load函数处理残缺JSON字符串,通过括号平衡补齐和尾部垃圾字符截断两种策略修复数据;universal_cleaner函数递归扫描数据结构(字典/列表),自动解析嵌套的JSON字符串。示例展示了混合处理带垃圾字符的JSON字符串和正常字典的能力,适用于非标准JSON数据的容错解析场景。(150字)
2026-01-26 17:26:11
155
原创 【工具调用】BFCL榜单数据分析
模型应该输出一些与用户查询相关的函数调用(一个或多个),我们不检查此类别中函数调用的正确性(例如,正确的参数值)。● function relevance detection:在函数相关性检测中,设计的场景中所提供的工具都与query不相关,不应该被调用。● Irrelevance detection:在函数相关性检测中,设计的场景中所提供的工具都与query不相关,不应该被调用。● 评估有关预填充内存的问题:在评估阶段,最终的内存快照是 加载,模型呈现有针对性的后续 问题(例如,“下周末我要去哪里度假?
2026-01-21 16:12:04
1235
原创 【MLE】Benchmark 总结
arxiv:code:简介Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。
2026-01-21 14:34:21
1006
原创 【MLE】MLGym: A New Framework and Benchmark for Advancing AI Research Agents
Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。
2026-01-21 14:29:59
603
原创 【数据合成】Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environment
● 对每个问题生成独立工具时候,会出现工具相似冗余问题需要根据工具文档描述D进行去重,融合重叠的功能。● 生成的工具经常会出现较为简单的函数和有限的参数集,需要进行复杂度扩展。○ 采用关联的问题Q和答案A进行验证执行,对于不正确的输入,要可以给出适当的错误消息。○ 功能泛化:将每个工具的功能扩展到其原始子问题之外,以涵盖更广泛的任务范围。○ 工具集扩展:引入额外的非必要工具,增加工具选择的复杂度,提升环境整体难度。○ 并行多跳:包含独立的子问题和顺序依赖关系子问题的并行结构。○ 单跳:仅包含一个子问题。
2026-01-21 13:57:18
279
原创 【工具调用】数据集总结
本文汇总了多个关于工具增强型语言模型(LLM)的最新研究,重点介绍它们在API调用和多轮交互方面的创新。AgentBank提出了5万+轨迹调优数据集,FunReason-MT开发了多轮函数调用框架,Gorilla和ToolLLM分别连接了海量API(16,000+),API-Bank则提供了全面的评估基准(73个API)。这些研究通过数据合成、轨迹调优和专用训练集(如ToolDial的多轮对话集)显著提升了LLM的工具使用能力,其中微调模型(如Lynx、ToolLLaMA)性能接近GPT-3.5水平。核心挑
2026-01-21 13:55:24
746
原创 【工具调用】Benchmark总结
简介:函数调用,也称为工具使用,是指大型语言模型调用外部函数、api或用户定义工具的能力,这是代理大型语言模型应用程序的基本功能。尽管它很突出,但由于两个原因,还没有一个标准的基准来评估函数调用:评估函数调用何时有效具有挑战性,以及获取各种实际函数的挑战。我们提出伯克利函数调用排行榜(BFCL),一个全面的基准,旨在评估函数调用在广泛的现实世界的设置。BFCL基准测试使用一种新颖的抽象语法树(AST)评估方法评估各种编程语言之间的串行和并行函数调用,该方法可以轻松扩展到数千个函数。
2026-01-21 13:48:16
803
原创 大模型模型训练参数指导
数据量推荐 LR原因1k–10k1e-6–5e-6防止过拟合与灾难性遗忘10k–50k5e-6–1e-5格式学习 + 稳定泛化50k–300k1e-5(标准)最稳、最常用、适用所有模型300k–1M5e-6–8e-6防止大规模训练导致模式坍缩1M–10M3e-6–6e-6防止破坏预训练能力。
2025-12-08 14:55:33
1161
原创 【Agent】rStar2-Agent: Agentic Reasoning Technical Report
Microsoft Research提出,这是一个基于14B预训练模型、通过智能体强化学习(agentic RL)训练的数学推理模型,核心创新包括GRPO-RoC算法(结合重采样策略解决代码环境噪声问题)、支持45K并发工具调用且平均延迟0.3秒的大规模RL基础设施,以及“非推理SFT+多阶段RL”的高效训练方案(仅用64块MI300X GPU、510个RL步骤、1周完成训练)。该模型在数学推理任务上表现卓越,AIME24 pass@1达80.6%、AIME25达69.8%
2025-12-04 17:39:19
958
原创 VERL获取全局步数代码修改
然后,给compute_socre里加入一个传递参数step即可。进入score之前,将步数信息,传递给extra_info字典。通过batch.meta_info传入步数信息。在进入奖励函数之前,加入。,如果是dapo,进入。在 1038 行加入。
2025-10-24 12:28:57
292
原创 【DeepResearch】WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
提出了一种数据合成方案、训练的改良、结合了TTS,并行生成多个研究报告,最后再让一个Agent进行整合。
2025-09-21 20:53:23
621
原创 【数组】求两个匀速运动质点的相交或最小距离
两个质点初始位置,朝向角和速度分别为:(x0,y0,yaw0,v0),(x1,y1,yaw1,v1),它们在t=0时刻匀速直行运动,问它们是否会在同一时刻相交,如果不会,找出它们距离最小的时刻。相交判断距离小于1e-6,算法要求高效。
2025-09-18 20:12:25
997
原创 【Agent Tool】Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning
Tool-Star: 基于强化学习的多工具协同推理框架 Tool-Star提出了一种新型强化学习框架,使大型语言模型能够自主调用多个外部工具进行渐进式推理。为解决工具使用数据稀缺问题,该研究开发了TIR数据合成管道,包含三个关键步骤:(1)通过提示采样和工具调用标记自动解析构建初始数据集;(2)实施工具调用频率控制、去重和格式规范化等质量管控措施;(3)基于难度感知将数据分为简单推理、工具集成推理和困难案例三类。训练采用两阶段方案:先进行冷启动微调建立基础能力,再通过内存缓存式Rollout和层次化奖励(正
2025-09-15 14:10:15
933
原创 【Agent】WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
BrowseComp-VL是为在现实网络环境中运行的高级多模态推理代理而设计的。BrowseComp-VL被组织成5个主要领域,包括17个细粒度的子领域。(1.自然科学与形式科学(化学、物理、生物与医学、数学),2.工程与计算机科学(工程、计算机科学与人工智能),3.社会科学与人文科学(社会科学、历史、政治、地理),4.艺术、娱乐与体育(艺术、音乐、电视、游戏、体育),5.其他)Level 1:问题需要多跳推理,但仍然引用显式实体。
2025-09-10 11:19:59
1314
原创 【Agent】GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
GLM-4.5,这是一个开源的混合专家(MoE)大型语言模型,具有355B总参数和32B激活参数,具有支持思考和直接响应模式的混合推理方法。通过对23T令牌进行多阶段训练,并结合专家模型迭代和强化学习进行全面的后训练,GLM-4.5在代理、推理和编码(ARC)任务中取得了较强的性能。引入了构建多个专家多轮多轮迭代优化SFT冷启动数据,RL阶段,基于困难度的课程学习,在长度为64K的单阶段RL,动态采样温度,代码和科学RL。任务一个通用智能体的核心能力有三个:(1)与外部工具和现实世界互动的智能体能力;
2025-09-05 16:08:50
1295
原创 【Agent】LongCat-Flash Technical Report
提出了两个部分的改进。1)引入零计算专家,输出等于输入,和其他专家在同一层级中。用于在简单token生成时候减少参数计算的开销。每次激活K个专家,难的token激活的非零专家会更多,计算参数会更多,简单的会激活的零专家会增多,计算参数减少。通过快捷连接MoE架构克服共享专家架构与单个专家计算的通信重叠。实验发现,引入快捷连接后性能与不引入相比几乎没有多少损失。在预训练方面,介绍了Tokenizer、训练稳定性、预训练数据过滤、长文能力增强等。
2025-09-04 11:41:51
627
原创 【Agent】Kimi K2: Open Agentic Intelligence
Kimi K2,参数量为1T,激活参数为320亿参数的MoE模型。利用标记高效的MuonClip优化器和15.5 T标记高质量数据集(主要涉及:Web文本、代码、数学和知识)进行预训练。构建工具合成和用户问题合成Pipline,使用3000+真实MCP工具,合成20000种工具,在SFT阶段训练智能体工具使用能力。在RL阶段,训练数学、STEM和逻辑推理领域能力。
2025-09-03 15:13:43
1254
原创 【Agent】Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic
对多工具多场景下使用一个Agent模型去解决当前需要多Agent解决的问题进行探索。分别在Web Agent场景和Code Agent场景下进行了尝试,通过使用MAS来生成采样轨迹,将数据轨迹转化为设计的标签进行包裹,之后分别使用SFT和DAPO进行训练,构建成一个端到端的Agent模型。实验结果发现,整体性能均优于现有方法。
2025-09-02 14:49:56
1237
原创 【Agent】AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents
摘要:AutoAgent是一个轻量级多智能体系统,支持动态创建和修改工具、代理及工作流以满足用户需求。其核心包含四个组件:(1) Agentic System Utilities提供基础工具集,包括协调代理、Web代理、编码代理和本地文件代理;(2) LLM-powered Actionable Engine利用标准化接口调用100+模型,支持直接工具使用和XML转换范式;(3) Self-Managing File System通过向量数据库管理多模态数据;(4) Self-Play Agent Cust
2025-08-28 15:39:36
1087
原创 215、【数组】交易逆序对(Python)
交易逆序对指的是在数组中,如果前面的元素大于后面的元素,则这两个元素组成一个逆序对。例如,在数组[9, 7, 5, 4, 6]中,逆序对有(9, 7)、(9, 5)、(9, 4)、(9, 6)、(7, 5)、(7, 4)、(7, 6)、(5, 4),共8个。求逆序对数。
2025-08-11 20:28:51
230
原创 修改Langchain中invoke和ainvoke解决TPM超额问题
【代码】修改Langchain中invoke和ainvoke解决TPM超额问题。
2025-07-25 09:58:07
282
原创 【基座模型】Qwen3报告总结
Github: Qwen3(1)扩展语言类型和数据领域种类。(2)数据合成:使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。(1)长COT冷启动数据:包含数学、代码、逻辑推理、通用STEM问题等,每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证(涉及多个子问题或者通用文本生成能力)和不需要COT就可以回答的问题。(2)RL推理数据收集3995个在冷启动没有出现过的覆盖范围广泛的数据。(3)思考
2025-07-18 17:40:07
624
原创 解决基于LangGraph框架的DeerFlow使用Qwen3不能正常被解析的问题
修改了JsonOutputParser类的parse_result()方法,添加了对Qwen3模型固定输出<think>标签的处理逻辑。当检测到文本中包含<think>时,会移除该标签及其内容,只保留</think>之后的部分再进行JSON解析。同时保留了原有的部分解析和完整解析逻辑,以及异常处理机制。
2025-06-06 19:28:12
541
原创 【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents
Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。
2025-05-27 20:45:16
979
原创 214、【数组】下一个排列(Python)
从后往前,找到第一个小于右侧集合的数,从右侧集合中找到一个比该数大的最小的数替换上去。然后,将右侧集合从小到排列,就为当前排列中,下一个排列的数。
2025-04-14 17:29:37
346
原创 210、【图论】课程表(Python)
这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系,找到入度为0的点作为起始遍历点。之后每遍历到这个点之后,就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时,继续被加入其中开启下一轮遍历。当遍历完后,如果还有剩余点的话,则说明不满足拓扑要求。
2025-03-20 20:52:28
423
原创 205、【数组】NLP分词实现(Python)
给定一个词典,比如[“杭州”,“西湖”,“博物馆”,“杭州西湖博物馆”,“我”]对于输入的文本进分词:我在杭州的杭州西湖博物馆玩了一天分词结果处理为如下形式的字符串: 我\W 在 杭州\W 的 杭州西湖博物馆\W 玩了一天对于输入的文本进分词:我在杭州的杭州西湖博物玩了一天分词结果处理为如下形式的字符串: 我\W 在 杭州\W 的 杭州\W 西湖\W 博物玩了一天。
2025-02-26 21:56:16
417
原创 【Reasoning】o1复现整合
arxiv: https://arxiv.org/abs/2411.14405github: https://github.com/AIDC-AI/Marco-o1Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutionsarxiv: https://arxiv.org/abs/2410.02884github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://git
2025-02-19 17:09:53
728
物体运动终端检测系统设计.pdf
2021-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅