自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿正的梦工坊

https://github.com/shizhengLi

  • 博客(2315)
  • 资源 (6)
  • 收藏
  • 关注

原创 pip install transformer_engine[pytorch]编译错误解决方法

踩坑

2026-01-15 18:56:03 291

原创 使用豆包多模态API(doubao-seed-1-8模型)分析小红书视频内容pyhton代码

使用豆包的api分析小红书的视频

2026-01-14 20:17:49 659

原创 如何像使用Openai API那样使用豆包的图片和视频API

更好用的版本

2026-01-13 14:39:43 900

原创 回测系统(Backtesting System)是什么?

回测系统 = “用历史数据演练你的交易策略,看它过去能不能赚钱、亏多少、回撤多大” 的模拟器。

2026-01-07 14:26:20 440

原创 Git Rebase 是什么?为什么需要它?

git rebase就是一个非常强大的工具,它能让你的提交历史变得更干净、更线性。

2026-01-07 13:59:46 835

原创 二次预训练与微调的区别

二次预训练和微调是相辅相成的技术:前者解决“领域不匹配”问题,让模型“懂行”;后者解决“任务不适应”问题,让模型“会做”。

2026-01-02 22:56:48 1088

原创 VisualTrap:一种针对 GUI Agent 的隐蔽视觉后门攻击

VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation

2026-01-02 15:32:15 1046

原创 MinHash 去重策略:小白也能轻松上手的大规模文本去重神器

MinHash + LSH 是大数据近似去重领域的经典组合,简单、强大、实用。无论是做爬虫、清洗数据集,还是构建推荐系统,掌握它都能让你事半功倍。

2026-01-02 14:57:01 655

原创 小白也能懂:大语言模型的 Prefill 和 Decode 是什么?

这两个词听起来很专业,但其实超级简单,就像是模型“阅读问题”和“回答问题”的两个阶段。

2025-12-31 18:46:07 953

原创 Kronecker积详解

它不是普通的矩阵乘法,而是把两个矩阵“拼成”一个更大的矩阵。

2025-12-31 18:19:13 866

原创 论文Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

这篇工作的核心亮点在于Agentic Environment 的可扩展性(agentic env scaling):如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中,高效构建可靠的强化学习奖励信号,从而让小模型(7B)通过RL获得远超大模型的推理能力。

2025-12-30 17:38:17 751

原创 Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程

核心创新是用“Rubric”(评分细则)作为可自动打分的结构化奖励信号,取代了只能用于数学、编程等可严格验证任务的传统奖励。

2025-12-30 16:50:43 980

原创 VERLTool:一个统一的工具增强代理强化学习框架深度解析(环境、Rollout 与数据构造篇)

VERLTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

2025-12-30 14:41:21 898

原创 AppWorld:一个全新的交互式编码代理基准,专治“简单API调用”不够用

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

2025-12-30 13:39:33 583

原创 ARE:Meta 发布的代理研究平台,如何构建动态环境并实现大规模扩展

ARE: scaling up agent environments and evaluations

2025-12-29 18:32:50 836

原创 Gaia2:扩展通用代理评估的新基准

《ARE: scaling up agent environments and evaluations》

2025-12-29 18:17:18 903

原创 ToolMind Technical Report 详细介绍:一个大规模、推理增强的工具使用数据集

ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset

2025-12-29 14:51:03 1008

原创 DeepSeek-V3.2技术解析:大规模Agentic任务合成与强化学习扩展的突破

大规模Agentic任务合成管道

2025-12-29 14:36:21 651

原创 论文WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

WebRL:用开源LLM训练高性能Web Agent的突破性框架

2025-12-29 13:58:55 960

原创 WebArena:一个真实的网页环境,用于构建更强大的自主智能体

WebArena: A Realistic Web Environment for Building Autonomous Agents

2025-12-29 12:38:24 953

原创 论文阅读WebDancer: Towards Autonomous Information Seeking Agency

论文的核心目标是构建一个端到端的自主信息搜索代理(Web Agent),类似于OpenAI的Deep Research或xAI的Grok DeepSearch,能够在真实网页环境中进行多步推理和信息获取。

2025-12-26 20:01:59 878

原创 论文TTRL: Test-Time Reinforcement Learning

TTRL将二者融合:在 rollout 阶段使用重复采样估计标签,然后计算基于规则的奖励,用于驱动RL训练。

2025-12-26 17:04:37 716

原创 论文解析SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

场景生成(Generating Scenarios)对于每个选定的工具子集t,LLM生成2-3个场景

2025-12-26 15:31:27 689

原创 强化学习中环境定义

Environment in RL:在强化学习(Reinforcement Learning, RL)中,环境(Environment)是指代理(Agent)与之互动的外部系统或上下文。

2025-12-26 14:46:55 939

原创 探索LLM的搜索能力:R1-Searcher 通过强化学习激励检索

《R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning》

2025-12-26 12:23:35 645

原创 GAIA:通用AI助手的里程碑基准测试

真实世界导向:不像AgentBench或ToolQA依赖封闭API,GAIA用开放网络和多模态,测试AI在不确定环境中的适应力。

2025-12-25 15:16:54 871

原创 DeepSearchQA:填补深度研究代理全面性差距的基准测试

《DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents》

2025-12-25 13:48:53 877

原创 Mac电脑解决cursor使用command点击不跳转代码的问题

第一步:安装python扩展第二步 command + 逗号, 进入设置,输入Language server,选择Jedi第三步,重启cursor。

2025-12-24 13:44:53 274

原创 ToolLLM(Toolbench)论文解读

Toolllm: Facilitating large language models to master 16000+ real-world apis

2025-12-22 15:56:19 1115

原创 保罗·高更(Paul Gauguin)深度分析

保罗·高更(Paul Gauguin)是19世纪末法国艺术史上一位充满传奇色彩的画家。他曾经是一名在巴黎证券交易所叱咤风云的股票经纪人,却毅然放弃中产阶级的安稳生活,远赴南太平洋的塔希提岛去寻求原始纯粹的艺术灵感。

2025-12-19 12:06:28 925

原创 Search-R1:用强化学习训练LLM推理并利用搜索引擎

《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》

2025-12-18 17:24:42 1281 1

原创 AUTOENV 论文通俗解释:AI 代理如何在不同“世界”里学习?

AUTOENV框架与AUTOENV-36数据集

2025-12-18 14:39:49 979

原创 CuES:好奇心驱动的环境接地任务合成框架,用于Agentic RL

CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic R

2025-12-17 11:20:24 770

原创 阿里通义实验室(Tongyi Lab)发布论文《Towards General Agentic Intelligence via Environment Scaling》

这篇工作本质上在解决一个核心痛点:真实世界的工具调用能力高度依赖于训练时环境的多样性

2025-12-15 15:48:10 1312

原创 PLANTAIN:让LLM推理从“黑箱长考”走向“计划先行、交互纠错”的新范式

《PLANTAIN: Plan-Answer Interleaved Reasoning》

2025-12-15 14:28:38 842

原创 PyTorch 权重剪枝中的阈值计算:深入解读 numel() 和 torch.kthvalue()

元素个数,和取前几个最小值

2025-12-15 14:11:38 1089

原创 RLVE:通过自适应可验证环境扩展语言模型的强化学习

《RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments》

2025-12-13 13:51:32 1034

原创 ProRL:延长强化学习训练,扩展大语言模型推理边界——NeurIPS 2025论文解读

ProRL: Prolonged Reinforcement Learning ExpandsReasoning Boundaries in Large Language Models

2025-12-12 12:50:52 1197

原创 Verl中的checkpoint合并成huggingface形式的模型

分布式训练得到的ckpt如何merge成普通的hf模型。

2025-12-12 11:48:02 382

原创 wandb报错并且AttributeError: ‘_thread.RLock‘ object has no attribute ‘_recursion_count‘

非关键错误(Non-critical errors)

2025-12-11 18:03:46 376

李永乐线代强化笔记2020年.rar

李老师对出题形式、考试重点了如指掌,解题思路极其灵活,辅导针对性极强,效果优良,成绩显著,受到广大学员的交口称赞!这是笔者自己的笔记,整理成pdf版,方便大家复习使用。

2020-10-27

李永乐线代基础班笔记.zip

李永乐线性代数基础班笔记2020年。用过了都说好!好在思路与题型的延伸方面。举一反三(举一反N也不夸张)

2020-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除