- 博客(1397)
- 资源 (4)
- 收藏
- 关注
原创 【LLM】多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In
2024-06-02 13:05:46
5300
8
原创 【Agent】Towards General Agentic Intelligence via Environment Scaling
这篇论文提出了一种通过系统环境扩展和agent经验学习来提升通用agent智能的方法。通过程序化地将工具实例化为可执行的代码,并在数据库结构化的环境中进行操作,实现了大规模的可验证轨迹构建。- 基于这些环境,引入了两阶段agent经验学习框架,使agent能够在一般域中学习基本的工具使用技能,并在目标垂直域中进行细粒度训练。- 广泛的实验结果表明,AgentScaler系列模型在开源模型中达到了最先进的性能,并在某些情况下与更大或闭源的对应模型相当。未来的研究方向包括在完全模拟的环境上集成强化学习和扩展
2026-05-05 21:35:46
287
原创 【WM】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
LeWorldModel 的训练目标就是:从 raw pixels 学一个不会坍塌的 latent 状态空间,并在这个 latent 空间里学习“当前状态 + 动作 → 下一状态”的动力学模型。稳定训练的trick:高斯正则防坍塌阶段【对 latent embedding 加 Gaussian regularizer,使表示分布保持展开,避免所有图像被编码成同一个向量】在机器人控制、智能体规划里,很多时候不需要生成一张完整未来图片。LeWorldModel 在 latent 空间预测未来状态,所以更轻量
2026-05-05 18:15:04
258
原创 【多模态RAG】Purifying Multimodal Retrieval
现有 MRAG 框架均采用文档级检索与重排,默认文档内所有内容同等有效,但是检索文档含大量无关、冗余、矛盾噪声,引发 MLLM 幻觉,图像仅小区域感兴趣(ROI)有用,文本仅少量句子相关。所以,搞了个Retrieve–Rerank–Select–Generate四阶段 pipeline,新增片段级筛选模块净化证据,目标是在量化证据的边际效用,从而能够过滤掉通常会损害下游推理的无关、冗余或矛盾噪声多模态RAG去噪:碎片筛选阶段【使用训练完成的轻量学生选择器,对混合候选池中所有条目进行效用打分,按得分从高到低
2026-05-05 16:51:23
294
原创 【LLM】DeepSeek-V4模型架构和训练流程
DeepSeek-V4优化点:1、混合注意力架构:我们设计了一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升长上下文处理效率。在百万 Token 上下文场景下,DeepSeek-V4-Pro 相较于 DeepSeek-V3.2,单 Token 推理所需的 FLOPs 仅为其 27%,KV 缓存占用仅为 10%。2、流形约束超连接(Manifold-Co
2026-05-01 11:10:41
786
1
原创 【Agent记忆】MSTAR:Every Task Deserves Its Own Memory Harness
它要解决的是传统通用记忆系统在不同任务(对话、法律、医疗等)上适配性差、效果不佳的问题。它将记忆系统建模为可进化的Python程序,通过react循环,为每个任务自动优化专属的记忆结构,实验效果优于固定结构。MSTAR:给几个初始 memory 程序 -> 让 Agent 用这个 memory 做任务 -> 记录成功和失败案例 -> 让 Coding Agent 改代码 -> 编译 + smoke test + 限制检查。然后把新程序加入候选池,继续迭代。不是给所有 Agent 都套一个固定记忆模块,而
2026-04-28 22:37:07
372
原创 【Agent】Openclaw架构(Gateway|subagent|工具过滤|Sandbox)
OpenClaw 的 SubAgent 就是一个带注册表的"任务外包系统"——父 Agent 把子任务打包成 `SpawnSubagentParams`,扔给注册中心,注册中心拉起独立会话执行,执行完通过 announce 队列把结果还给父 Agent,整个过程有超时、孤儿恢复、清理等保障机制。- openclaw架构总结: - 核心架构:以 Gateway(网关) 为中心的控制平面,统一管理所有通信与调度。 - 大脑引擎:事件驱动的Agentic Loop,处理从接收、推理、调用工具到回复的全流程。
2026-04-28 22:04:46
808
原创 【Agent】Claude code架构和源码粗读分析
claude code确实在工程层面做到很好(T-T 感觉我和模型越来越远了),比如子agent的设计、分为同步/异步任务等Agent = 主循环 + 工具体系 + 权限体系 + 状态管理 + 子任务编排 + UI/体验 + 工程优化Sub-Agent 编排 = Fork 继承上下文 + prompt cache 优化 + Resume 状态恢复 + 后台任务管理 + Agent 间通信 + 默认隔离。它把多个 Agent 组织成一个可控的并发运行时五个子agent:GeneralPurpose 负责
2026-04-27 22:16:15
599
1
原创 【VLM】结合Python沙箱的以图思辨S1-VL模型
基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理数据源整合【开源轨迹Thyme/V-Thinker+内部高分辨率图表/几何推理数据,Thyme(hinkBeyondImages,让模型自己写Python代码裁剪、放大、旋转、调对比度、做计算,在沙箱里执行,再继续推理,开源了大量代码驱动的图像交互轨迹)/V-Thinker(Interactive Thinking w
2026-04-25 23:40:20
347
原创 【Agent】Long-horizon task的memory系统
Long-horizon task需要memory,但一直觉得memory是个很工程的问题agent记忆的三大门派:数据库派、文件派、模型派openclaw:读取记忆是 Function Call,写入记忆是 Hook 自动化机制,不是Function Call调用的 Tool。这种设计的好处是:写入记忆是系统自动管理的,不需要显式决定"现在要保存记忆",而是在会话切换时自动保存上下文。具体检索完memory后考虑:冲突:当检测出两个记忆相互矛盾的时候,该怎么解决?随时间的衰减:旧记忆权重怎么降?
2026-04-24 23:40:01
439
原创 【LLM】Deep Research数据构建和训练
Deep Research 的训练数据必须专门构造:数据里的每道题,必须让模型学会多步推理、动态调整搜索策略、在不确定中继续前进。四种Deep Research数据构建方法:SailorFog-QA就是根据知识图谱构建多跳推理数据。“答案可验证”是因为在“知识图谱路径”走“推理跳数”可以构造多跳推理数据。WebFrontier:从seed数据进行泛化(实体替换、新增条件、比较合并、否定反转)WebShaper:先focus推理链的生成,用知识投影,每步有(属性查找、关系跳转、比较、否定)等,推理结构
2026-04-22 22:37:32
306
原创 【VLM-Agent】移动端智能体MobileAgent训练数据合成
核心还是看数据合成思路,包括任务指令合成(先造出合理、复杂、多步骤的用户任务)、轨迹合成(让智能体一步步执行,造出带错误恢复的操作轨迹),最终产出任务指令+完整操作轨迹(含思维链),构成移动智能体训练数据。- 轨迹合成,就是在合成移动智能体执行任务的 step-by-step demonstration,不只是成功路径,还包括做错后被 expert 拉回来的 error-recovery 轨迹,用来训练 agent 的真实执行与纠错能力- error-recovery demonstrations举例:
2026-04-20 21:54:27
380
原创 【Agent】构建Harness | hermes-agent框架组件
Harness-agent实现了一个完整的 “经验提取 → 知识存储 → 智能检索 → 上下文注入 → 执行验证 → 自动改进” 闭环。是内置闭环自学习机制的项目。不是只做 task summary,而是在做一个 persistent memory + skill induction + retrieval + user modeling 的闭环。更多是工程优化Skills 系统让 AI Agent 像人类专家一样积累经验——把成功的做法写成 SOP,在使用中持续修订,并且可以分享给其他人。文章目录
2026-04-18 16:31:32
444
原创 【LLM后训练】看Off-Policy and On-Policy Learning
以轨迹来源为核心维度,将大模型后训练,按照轨迹来源分类,可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】后训练本质是对模型行为的结构化干预,所有后训练方法(SFT、偏好优化、RL、蒸馏等)最终都在改变模型的轨迹分布,而非仅仅拟合标签或优化单一目标。其学习信号包括Token、偏好、奖励、验证器、教师指导等。文章目录note一、研究背景二、研究方法1、Off-Policy Post-Training2、On-Policy Post-Training三、
2026-04-16 21:21:42
437
原创 【LLM】GLM-5: from Vibe Coding to Agentic Engineering
GLM5:海量通用语料打底 → 长上下文和 Agent 数据强化 → 用监督学习塑形 → 用多阶段 RL 提升推理和执行能力 → 最后用蒸馏把各阶段能力重新“缝合”起来,避免遗忘thinking模式:单轮内部:是不是支持 interleaved thinking。也就是一边想、一边调工具、拿到结果再想。跨轮之间:是不是支持 preserved thinking,也就是上一轮那些 thinking,到了下一轮还在不在上下文里。hybrid reward system,将三类奖励信号结合起来使用:ru
2026-04-15 16:02:43
390
原创 【LLM应用】深度研究报告生成prompt
# 横纵分析法 Deep Research Prompt> 使用方法:将下方 Prompt 复制到任何支持 Deep Research 的模型中,只需修改开头的「研究对象」一行即可。---## Prompt 正文```> 横纵分析法 by andy## 变量定义研究对象 = 「此处替换为你的研究对象名」(以下所有提到「研究对象」的地方,都指代上面定义的内容。使用时只需修改等号右边的内容即可。)---你是一位资深的技术与商业研究分析师。请使用「横纵分析法」对「研究对象」进行一份完整的深度研
2026-04-14 10:31:31
117
原创 【LLaDA】Large Language Diffusion Models
这篇论文介绍了LLaDA,一种从头开始训练的大规模扩散语言模型。LLaDA展示了强大的可扩展性、上下文学习能力和指令跟随能力,达到了与领先的LLMs相当的性能。此外,LLaDA提供了双向建模和增强的鲁棒性,有效解决了现有LLMs的一些局限性。- LLaDA不是像 GPT/LLaMA 那样 从左到右一个 token 一个 token 生成,而是:先把句子里的 token 随机 mask 掉,模型去预测这些 mask 的 token,推理时从“全 mask”开始,逐步把句子补出来- LLM 的 in-con
2026-04-13 19:59:29
408
原创 【MLLM】文档多模态MinerU2.5-Pro模型
【文档多模态模型进展】MinerU2.5-Pro更新,主要特点是保留 MinerU2.5 的 1.2B 参数架构,主要改动点是训练数据从不足 1000 万页扩至 6550 万,工作报告在:MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale,https://arxiv.org/pdf/2604.04771,代码在: https://github.com/opendatalab/MinerU,模型权重在: h
2026-04-10 23:14:21
518
原创 【MLLM】多模态理解benchmark:MMMU-Pro
paper观点:多模态模型最难的,不是 OCR,也不只是看图,而是“图文混合场景下的联合理解与推理”(比如图片中含有文字的纯图输入)。总体上 CoT 通常能提升表现,尤其在 Tech/Engineering、Science 这种更偏结构化推理的领域更明显;但在一些更偏主观解释的领域,收益就小,甚至可能变差。也就是说,CoT 更像“推理型题目加成器”,不是全领域通杀。主要通过三步增强难度:过滤 text-only 可解题、把选项从 4 个扩到 10 个、再加入 screenshot/photo 的 vis
2026-04-09 15:02:35
408
原创 【MLLM】Gemma 4模型简介和选择
Google DeepMind 正式发布了其迄今为止最强大的开放模型家族 Gemma 4。该系列基于与 Gemini 3 相同的研究成果和技术构建,专门为高级推理和 Agent 工作流设计,Gemma 4 包含 E2B、E4B、26B-A4B 和 31B Dense 四种尺寸,全面支持跨文本、图像和视频的多模态处理,其中较小尺寸模型(E2B 和 E4B)还原生支持音频输入。https://blog.google/innovation-and-ai/technology/developers-tools/g
2026-04-05 00:23:02
262
原创 【MLLM】GraphWalker:Deepresearch用于图像生成
【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-
2026-04-01 22:18:42
394
原创 【LLM】Attention-Residuals残差注意力
提出了注意力残差(AttnRes)及其可扩展变体块注意力残差(Block AttnRes),用于解决深度方向上的信息聚合问题。通过引入基于softmax注意力的选择性聚合和块结构,Block AttnRes在大规模模型训练中实现了高效的跨层注意力计算,显著减少了内存和通信开销。实验结果表明,Block AttnRes在各种基准任务上均表现出优于基线的性能,验证了其有效性和实用性。注意力残差:原来残差是“所有历史层(上一层表示 + 当前子层输出)一股脑相加”即残差连接,现在改成“对历史层做一次 atten
2026-04-01 20:43:10
461
原创 【RL】Soft Adaptive Policy Optimization(SAPO)
GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。SAPO
2026-03-28 16:07:18
426
原创 【RL】MiniMax-M1: CISPO + Lightning Attention
CISPO是2025年6月minimax提出,放到今天还是有价值的。CISPO强化学习:传统 PPO / GRPO 这类方法,在做 token 级 clipping 时,会把一些“低概率但很关键”的 token(这类token一般是反思、转折、纠错、重新检查等字符,类似思维拐点) 更新给压掉,如果都被clip掉,模型就不容易学会真正的长链反思。通过裁剪重要性采样权重而不是更新令牌来稳定训练,从而避免了传统PPO/GRPO算法中的令牌裁剪问题。模型架构优化:它不是纯标准 softmax attent
2026-03-28 01:17:02
431
原创 【VLM】HopChain视觉语言推理多跳数据合成框架
【数据合成方案进展】讲得是多跳视觉语言推理数据合成框架,用于应对视觉语言模型(VLMs)在长思维链(CoT)推理中的错误累积以及大多数 RLVR 视觉语言训练数据缺乏全程依赖视觉证据的复杂推理链的问题。工作在《HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning》,https://arxiv.org/pdf/2603.17024,看核心几个点:1)数据定义:VLMs 以图像 + 文本查询为输入,生成思维
2026-03-22 21:12:34
451
原创 【RL】Deep Research Agent 训练经验探索
一、Deep Research Agent 训练【Deep Research Agent 训练经验探索】Deep Research智能体通过多轮检索、证据聚合和决策生成解决知识密集型任务,RL 是优化其长 horizon 交互行为的关键方法,但现有训练方案碎片化,难以明确性能驱动因素,所以可以做个工作,以 “预测准确率、训练稳定性、推理成本” 为统一评估框架,拆解Deep Research究智能体 RL 训练的提示模板、奖励函数和策略优三大维度,明确各组件对性能、稳定性、成本的影响,从提示模板、奖励函数、
2026-03-21 00:39:50
255
原创 【LLM】openclaw相关项目汇总(skills|应用)
一、openclaw用于表格分析二、领域openclaw skills三、openclaw安全四、生成学术海报五、OpenClaw Medical Skills六、论文自动生成七、搜索AI Search Hub八、自动分析论文九、使用RL增强OpenClaw能力十、openclaw记忆项目十一、相关厂商clawReference一、openclaw用于表格分析【openclaw用于表格分析项目】基于 FastAPI + ReAct 流式智能体 + 多智能体并行 + 技能自学习的表格
2026-03-21 00:35:58
775
原创 【LLM】Claude Code使用指北
一、Claude CodeClaude Code 的核心不是"回答",而是一个反复循环的代理过程:```python收集上下文 → 采取行动 → 验证结果 → [完成 or 回到收集] ↑ ↓ CLAUDE.md Hooks / 权限 / 沙箱 Skills Tools / MCP Memory```
创意任务评测不能只看一个总分,必须分成 3 层:硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规任务能力层:有没有完成该类任务最核心的目标审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”文章目录note一、统一评测框架1)评分结构2)评分方式A. 维度打分(绝对分)B. 两两比较(Pairwise)二、文学创作评测体系文学创作评测表(100分)文学创作的扣分项 / 一票否决项文学创作更科学的评测建议三、剧情编写评测体系剧情编写评测表(100分)
2026-03-12 00:23:37
565
原创 【LLM】Agent RL训练和推理
奖励函数: - ReActFormat:引导模型学会"说话的格式"——必须有 `<think>` 思考 + `Action + Action Input` - ReactORM:引导模型学会"说话的内容"——函数名和参数必须正确@[toc]# 一、训练数据`LLM-Research/xlam-function-calling-60k:grpo`数据样本信息:```python─────────────────────────────────────────────────────
2026-03-09 00:12:49
274
原创 【LLM】Openclaw测试评估PinchBench
评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers
2026-03-08 22:53:23
1273
原创 【LLM】Labor market impacts of AI
Anthropic 发布 AI 劳动力市场影响报告,提出“observed exposure”(观测暴露度)新指标。该指标结合 LLM 理论能力与 Claude 真实使用数据,重点评估任务自动化程度。使用Anthropic经济指数中的实际使用数据,计算每个职业的任务在专业设置中看到的自动化使用情况, Observed Exposure =∑( Task Coverage × Time Fraction )∑ Time Fraction Observed Exposure = ∑ T
2026-03-07 17:48:19
396
原创 【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
论文核心思想:把 RL 训练时间大幅延长,并设计稳定训练机制。长时间 RL 会出现训练崩溃:可以周期性重置 reference policy,即定期把 reference policy 更新成当前模型(既能保持KL 正则化,又不会阻止模型继续学习)提出Reasoning Boundary(推理能力边界,一个模型能够解决的问题集合),RL可以将该边界扩展RL 的收益和 base model 能力相关:base model 太强→ RL 收益小base model 太弱→ RL 学不会base m
2026-03-06 00:11:15
414
原创 【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs
论文目标:设计一个实验环境,证明 RL 是否真的能学新算法。结论:RL会出现“顿悟式学习”,即Grokking phase transition这篇论文通过DELTA数据集系统地研究了RL在LLMs中的应用,揭示了RL模型在学习能力和泛化能力方面的潜力。研究表明,RL不仅能够提升现有技能,还能解锁全新的推理策略。论文的贡献包括设计了一个受控且多样化的编程问题数据集DELTA,提供了清晰的证据表明RL可以发现参考模型无法执行的策略,并沿探索性、组合性和转化性轴线评估了这些策略的泛化能力。DELTA数据
2026-03-05 22:08:01
386
原创 【LLM】OpenClaw龙虾指北
OpenClaw = 大模型大脑 + 能动手的手脚 + 本地隐私 + 开源免费,帮你把电脑上的重复活儿全自动化。文章目录note一、OpenClaw二、安装和部署1、OpenClaw 安装部署指南一、环境要求二、获取项目三、安装依赖四、构建项目五、运行安装向导六、设备配对七、启动使用八、常用命令速查九、目录结构十、注意事项三、相关命令🚀 启动 Gateway🛑 关闭 Gateway📋 常用命令列表🔧 开发环境命令Reference一、OpenClaw它是
2026-03-01 17:08:12
2768
原创 【Agent】skill介绍和使用教程
Skill 是 Anthropic 推出的可复用工作流封装机制。它解决了 AI 使用中的核心痛点:避免每次都“重新教”AI。痛点:每次使用 Claude 处理周报、数据分析或复杂流程时,都需要重新描述格式、风格和步骤,效率低下且容易出错。解决方案:Skill 将你的工作方法、团队规范和领域知识打包成一个文件夹。Claude 学会一次后,即可按标准自动执行,实现 “Teach Claude once, benefit every time”(教一次,终身受益)。
2026-02-22 19:29:40
3829
原创 【VLM】Qwen3-VL-SFT微调流程
一、Qwen3-VL微调训练数据数据集汇总样例展示二、相关实验Reference一、Qwen3-VL微调训练数据数据集汇总数据集 样本数 大小 字段alpaca-gpt4-data-zh 48,818 30.69 MB instruction, input, outputla_te_x_ocr 1,200 15.49 MB image, textvideo_chat_gpt 1,996 0.71 MB video_name, question, answer总计 52,014 ~47
2026-02-21 16:57:14
868
Python思维导图.rar
2020-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅