- 博客(2315)
- 资源 (6)
- 收藏
- 关注
原创 回测系统(Backtesting System)是什么?
回测系统 = “用历史数据演练你的交易策略,看它过去能不能赚钱、亏多少、回撤多大” 的模拟器。
2026-01-07 14:26:20
440
原创 二次预训练与微调的区别
二次预训练和微调是相辅相成的技术:前者解决“领域不匹配”问题,让模型“懂行”;后者解决“任务不适应”问题,让模型“会做”。
2026-01-02 22:56:48
1088
原创 VisualTrap:一种针对 GUI Agent 的隐蔽视觉后门攻击
VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation
2026-01-02 15:32:15
1046
原创 MinHash 去重策略:小白也能轻松上手的大规模文本去重神器
MinHash + LSH 是大数据近似去重领域的经典组合,简单、强大、实用。无论是做爬虫、清洗数据集,还是构建推荐系统,掌握它都能让你事半功倍。
2026-01-02 14:57:01
655
原创 小白也能懂:大语言模型的 Prefill 和 Decode 是什么?
这两个词听起来很专业,但其实超级简单,就像是模型“阅读问题”和“回答问题”的两个阶段。
2025-12-31 18:46:07
953
原创 论文Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains
这篇工作的核心亮点在于Agentic Environment 的可扩展性(agentic env scaling):如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中,高效构建可靠的强化学习奖励信号,从而让小模型(7B)通过RL获得远超大模型的推理能力。
2025-12-30 17:38:17
751
原创 Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程
核心创新是用“Rubric”(评分细则)作为可自动打分的结构化奖励信号,取代了只能用于数学、编程等可严格验证任务的传统奖励。
2025-12-30 16:50:43
980
原创 VERLTool:一个统一的工具增强代理强化学习框架深度解析(环境、Rollout 与数据构造篇)
VERLTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
2025-12-30 14:41:21
898
原创 AppWorld:一个全新的交互式编码代理基准,专治“简单API调用”不够用
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
2025-12-30 13:39:33
583
原创 ARE:Meta 发布的代理研究平台,如何构建动态环境并实现大规模扩展
ARE: scaling up agent environments and evaluations
2025-12-29 18:32:50
836
原创 ToolMind Technical Report 详细介绍:一个大规模、推理增强的工具使用数据集
ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset
2025-12-29 14:51:03
1008
原创 论文WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
WebRL:用开源LLM训练高性能Web Agent的突破性框架
2025-12-29 13:58:55
960
原创 WebArena:一个真实的网页环境,用于构建更强大的自主智能体
WebArena: A Realistic Web Environment for Building Autonomous Agents
2025-12-29 12:38:24
953
原创 论文阅读WebDancer: Towards Autonomous Information Seeking Agency
论文的核心目标是构建一个端到端的自主信息搜索代理(Web Agent),类似于OpenAI的Deep Research或xAI的Grok DeepSearch,能够在真实网页环境中进行多步推理和信息获取。
2025-12-26 20:01:59
878
原创 论文TTRL: Test-Time Reinforcement Learning
TTRL将二者融合:在 rollout 阶段使用重复采样估计标签,然后计算基于规则的奖励,用于驱动RL训练。
2025-12-26 17:04:37
716
原创 论文解析SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement
场景生成(Generating Scenarios)对于每个选定的工具子集t,LLM生成2-3个场景
2025-12-26 15:31:27
689
原创 强化学习中环境定义
Environment in RL:在强化学习(Reinforcement Learning, RL)中,环境(Environment)是指代理(Agent)与之互动的外部系统或上下文。
2025-12-26 14:46:55
939
原创 探索LLM的搜索能力:R1-Searcher 通过强化学习激励检索
《R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning》
2025-12-26 12:23:35
645
原创 GAIA:通用AI助手的里程碑基准测试
真实世界导向:不像AgentBench或ToolQA依赖封闭API,GAIA用开放网络和多模态,测试AI在不确定环境中的适应力。
2025-12-25 15:16:54
871
原创 DeepSearchQA:填补深度研究代理全面性差距的基准测试
《DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents》
2025-12-25 13:48:53
877
原创 Mac电脑解决cursor使用command点击不跳转代码的问题
第一步:安装python扩展第二步 command + 逗号, 进入设置,输入Language server,选择Jedi第三步,重启cursor。
2025-12-24 13:44:53
274
原创 ToolLLM(Toolbench)论文解读
Toolllm: Facilitating large language models to master 16000+ real-world apis
2025-12-22 15:56:19
1115
原创 保罗·高更(Paul Gauguin)深度分析
保罗·高更(Paul Gauguin)是19世纪末法国艺术史上一位充满传奇色彩的画家。他曾经是一名在巴黎证券交易所叱咤风云的股票经纪人,却毅然放弃中产阶级的安稳生活,远赴南太平洋的塔希提岛去寻求原始纯粹的艺术灵感。
2025-12-19 12:06:28
925
原创 Search-R1:用强化学习训练LLM推理并利用搜索引擎
《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》
2025-12-18 17:24:42
1281
1
原创 CuES:好奇心驱动的环境接地任务合成框架,用于Agentic RL
CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic R
2025-12-17 11:20:24
770
原创 阿里通义实验室(Tongyi Lab)发布论文《Towards General Agentic Intelligence via Environment Scaling》
这篇工作本质上在解决一个核心痛点:真实世界的工具调用能力高度依赖于训练时环境的多样性
2025-12-15 15:48:10
1312
原创 PLANTAIN:让LLM推理从“黑箱长考”走向“计划先行、交互纠错”的新范式
《PLANTAIN: Plan-Answer Interleaved Reasoning》
2025-12-15 14:28:38
842
原创 RLVE:通过自适应可验证环境扩展语言模型的强化学习
《RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments》
2025-12-13 13:51:32
1034
原创 ProRL:延长强化学习训练,扩展大语言模型推理边界——NeurIPS 2025论文解读
ProRL: Prolonged Reinforcement Learning ExpandsReasoning Boundaries in Large Language Models
2025-12-12 12:50:52
1197
原创 wandb报错并且AttributeError: ‘_thread.RLock‘ object has no attribute ‘_recursion_count‘
非关键错误(Non-critical errors)
2025-12-11 18:03:46
376
李永乐线代强化笔记2020年.rar
2020-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅