- 博客(187)
- 资源 (7)
- 收藏
- 关注
原创 openClaw-RL学习
Hindsight-Guided On-Policy Distillation (OPD) 是OpenClaw-RL中一种关键的训练方法,旨在从“下一状态信号”中提取指令性信息,并将其转化为的训练信号,以指导模型改进。传统的强化学习(RL)通常使用标量奖励(例如+1表示成功,-1表示失败),这种奖励虽然能评估操作好坏,但丢失了大量关于“如何改进”的细节信息。OPD的目标就是从下一状态信号中恢复这些丢失的指令性信息。
2026-04-01 17:50:40
394
原创 deer-flow前端分析
使用的是默认模式,包含了UI需要的信息如需要修改为其他模式,可使用streamMode: ["values", "messages", "events"], // <--- 在这里设置// ... 其他参数});
2026-03-17 19:38:17
430
原创 deer-flow2本地启动(无make无nginx启动)
python3.12+nodejs22+uv环境nodejs22可以通过exe程序安装,自动完成pnpm安装pip install uv验证:pnpm --versionuv --version(1)拷贝config.example.yaml为congif.yaml去掉一个模型配置为自己的api,我这里配置为deepseek v3(2)拷贝当前目录下.env.example为.env.local去掉跨域请求注释,允许本地请求CORS_ORIGINS=http://localhost:3000(3)cd
2026-03-16 15:28:53
464
原创 nanobot分析
执行python .\nanobot\cli\commands.py agent -m "查询今天深圳天气,并可视化展示"这个命令,整个调用链路是什么样的,如何实现llm调用,记忆,技能,工具调用,给出具体调用哪个文件的哪一行。(2)在对话过程中主agent会根据自然语言的corn表达式,自动调用工具,执行的时候会,增加定时job,触发_arm_timer,并将jobs保存至磁盘。(1)gateway启动的时候,将定时任务注册为一个工具,并启动start,start中会加载磁盘的定时任务,进行执行。
2026-03-08 19:54:41
424
原创 gated deltanet
通过这两个门,模型实现了对记忆的细粒度、数据依赖性的管理,性能超越了无门控的线性注意力。这是 Gated Attention 在高效注意力领域的重要应用。 为例,它将门控机制与线性注意力(Delta Rule)结合。这解决了线性注意力中记忆无限累积、无法遗忘的问题。
2026-02-27 17:11:36
261
原创 lighting attention
初始化: M = 0对于每个块 i = 1 到 N:1. 块内输出 = CausalAttention(Q_i, K_i, V_i)2. 块间输出 = Q_i * M // 使用历史摘要3. 当前块总输出 = 块内输出 + 块间输出4. 更新摘要: M = M + K_i^T * V_i // 为下一个块累加历史。
2026-02-27 16:30:50
382
原创 GLM5+minimax2.5+qwen3.5技术报告对比学习
GLM-5 通过构建“可验证环境”,将人类的主观判断转化为客观的自动化测试、规则引擎和模拟器信号。这种机制使得 Slime 框架能够在无人干预的情况下,让模型在真实环境中不断试错、自我优化,最终学会如何正确地完成任务。备注:自动判断是否成功是未来一个非常重要的事情MiniMax M2.5:原生Agent生产级模型的技术突破MiniMax M2.5是2026年2月发布的新一代文本模型,定位为“原生Agent生产级模型”。
2026-02-24 18:18:50
3233
原创 vibe coding自动化测试调研
本文调研了编程agent在自动化测试领域的发展趋势。随着AgentSkills的兴起,传统MCP功能正被各种自动化测试工具取代,如Playwright BrowserAutomation、pypict-claude-skill等测试工具。研究指出,未来的测试agent将整合设计、开发、调试全流程,并覆盖Web端和移动端测试。重点介绍了UI-TARS等智能测试agent,它们通过自然语言指令实现自动化操作,支持有界面和无界面环境,为构建自动化测试体系提供了新思路。
2026-02-09 11:09:57
595
原创 Figma mcp server
输入:Figma 文件链接(+ 可选节点 ID)+ Figma API 令牌(由 AI 工具传递给项目);输出:轻量化、标准化的 Figma 设计数据(JSON),而非前端代码;前端代码形式:由 AI 工具生成,支持 HTML/CSS/JS、React/Vue/Svelte 等主流框架、Tailwind/Styled Components 等 CSS 方案,粒度覆盖单组件到整页布局。是「数据翻译层」:将 Figma 私有数据模型翻译为前端 / AI 可理解的标准化格式;
2026-02-05 17:45:23
1082
原创 Trae网站开发联调0代码实现
(1)首页挑战目标查询接口,入参为挑战者token、年度、季度,返回数据为json结构,为所有挑战者当前季度的所有数据,参考返回数据标准结构规范。无需分页,直接展示所有数据。
2026-02-04 12:04:31
1358
原创 DeepSeek-OCR 2: Visual Causal Flow学习
SDPA 适配:使用 PyTorch 原生缩放点积注意力,兼顾效率与稳定性,适合批量 OCR 推理;动态位置编码:绝对 / 相对位置编码均支持插值缩放,适配不同分辨率的输入图像;分层特征处理:neck 层融合 + 逐步下采样,既保留字符细节,又提升特征维度适配语言模型;轻量化设计:窗口注意力将注意力计算复杂度从 O (N²) 降至 O (N²/W)(W 为窗口尺寸),降低显存占用。通过改造 SAM 的 ViT 编码器,既保留了 SAM 对图像细节的捕捉能力核心目标。
2026-01-29 17:49:29
833
原创 Engram论文学习
稀疏性是智能系统的一个反复出现的设计原则,主要通过混合专家(MoE)实现。尽管这种条件计算范式取得了成功,但语言信号固有的异质性表明在结构优化方面仍有很大的空间。组合推理和知识检索。虽然前者需要深入的动态计算,但文本的很大一部分——例如命名实体和公式化模式——是局部的、静态的和高度刻板的。经典 N-gram 模型(Brants et al., 2007;Nguyen, 2024)在捕获此类局部依赖关系方面的有效性表明,这些规律自然地表示为计算成本低廉的查找。
2026-01-13 17:37:04
726
原创 前端代码渲染截图方案
建议:可以将图片宽度放大为375的倍数,不然看起来分辨率太小,不清晰。注意:和html的字体并不是完全一样,可以进一步优化。图标并不是完全一样。5、优化代码(图标需要转base64)
2026-01-13 10:04:23
92
原创 UI-Ins技术报告学习
UI-Ins-32B 获得了最佳的接地精度,在 UI-I2E-Bench 上得分 87.3%,在 ScreenSpot-Pro 上得分 57.0%,在 MMBench-GUI L2 上得分 84.9%。此外,我们的模型展示了强大的代理潜力,使用 UI-Ins-7B 作为执行器在 AndroidWorld 上实现了 74.1% 的成功率。我们关注指令的多样性,并揭示了一个根本性的不匹配:人类可以在多种指令视角中灵活地选择最有效的途径,而目前的模型则以狭隘、固定的风格进行训练。
2025-12-30 09:16:19
765
原创 MAI-UI技术报告学习
两个任务:grounding和GUI 导航能力动作空间:```<thinking>...```## Note``````## Note用户提问提示词```<thinking>...``````<thinking>...```## Notegrounding提示词## Task<answer></answer>
2025-12-29 18:29:03
1019
原创 GUI Agent数据集收集
1、MMBench-GUI:跨平台GUI代理的分层评估框架,modelscope我们很高兴发布MMBench-GUI,这是一个分层、多平台的基准框架和工具箱,用于评估GUI代理。MMBench-GUI包括四个评估级别:GUI内容理解、GUI元素定位、GUI任务自动化和GUI任务协作。我们还提出了集成准确性和效率的效率-质量区域(EQA)指标。MMBench-GUI为评估和指导未来GUI代理能力的发展提供了严格的标准。数据大小:1.05G45G,12.8号提交。
2025-12-25 15:02:26
358
原创 Step-GUI 技术报告学习
3)对人机交互惯例的世界知识。掌握人机交互惯例、布局和符号意义,能够对未见或部分观察到的界面进行推理。备注:需要对收集的爬虫grounding数据进行修改。
2025-12-18 10:46:06
1038
原创 MiMo-V2-Flash学习
小米MiMo团队在12月16日晚上发布并开源了团队在官方博客中介绍,这是一款强大、高效且超快速的基座语言模型,在推理、编程和智能体场景中表现尤为出色,同时也是处理日常任务的优秀通用助手。
2025-12-17 16:11:08
535
原创 DeepSeekMath-V2学习
DeepSeekMath-V2 通过 **"生成器 - 验证器 - 元验证器" 三位一体架构和"验证器先行" 训练策略 **,实现了 AI 数学推理的质的飞跃,不仅在顶级数学竞赛中达到人类金牌水平,更建立了一个能够自我验证、自我完善的推理系统,为 AI 在科学证明、复杂推理领域的应用开辟了新道路。注:本介绍基于 DeepSeekAI 于 2025 年 11 月 27 日发布的官方论文和技术文档。
2025-11-29 11:39:14
1063
原创 通义灵码分析ms-swift框架中CHORD算法实现
CHORD 是一种结合了监督微调(SFT)和强化学习(RL)的算法,通过动态权重控制两者的平衡。核心思想是在 GRPO 损失函数中引入 SFT 损失,实现模仿学习和自主探索的平衡。
2025-11-29 10:51:26
726
原创 labelImg/QtScrcpy-win-x64-v3.3.3
手机需要打开USB开发者调试模式,USB数据传输类型选择文件传输,连上后在这里展示,双击后,就可以在PC屏幕上看到手机屏幕了。结合自己开发的标注工具,能实现PC页面实时标注。解压后,可以直接运行exe程序。
2025-11-20 11:35:24
281
原创 线性注意力
好的,我们来详细拆解图片中关于计算复杂度的分析。核心结论是:文中描述的线性Attention方案,其计算复杂度为 O(nd²)。这意味着计算量随着序列长度n线性增长,而不是像标准Softmax Attention那样平方增长。关键在于 d是固定的模型超参数(隐藏层维度),而n是变化的序列长度。d是常数:在模型设计好后,隐藏层的维度d(例如512, 768, 1024等)就固定了。它不会随着输入序列的增长而变化。n是变量:输入序列的长度n。
2025-09-15 18:51:18
1367
原创 AndroidWorld+mobileRL
这种设计使得代理不仅知道“任务是否完成”,更能理解“如何高效且正确地完成任务”,从而克服了传统稀疏奖励和单一最终答案奖励的局限性。
2025-09-08 19:54:16
923
原创 qwen2.5-vl技术报告学习
该数据集涵盖了各种多模态数据,例如图像描述、图文交错数据、光学字符识别(OCR)数据、视觉知识(例如,名人、地标、植物和动物识别)、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位以及基于代理的交互数据。交错图像-文本数据 对于多模态学习而言,交错图像-文本数据至关重要,它提供了三个关键优势:(1)通过同步的视觉和文本线索实现上下文学习(Alayrac et al., 2022),(2)在图像缺失时保持强大的纯文本能力(Lin et al., 2024),以及(3)包含广泛的通用信息。
2025-09-03 18:20:38
854
原创 多模态模型拼接训练
在确定方案可行后笔者计划使用完整数据集进行微调训练,然而考虑到训练数据量仅仅只有整个模型的12M,因此笔者按参数量与训练Token的比值为1:10采样数据集,即总共从数据集中采样出。################# 输入文本 ################################## 输入文本 ################################## 输入文本 ################################## 输入文本 #################
2025-09-03 15:10:44
836
原创 大模型8月进展
大型验证器系统医学领域适应备注:应该是参考kimi k2的技术。但kimi k2是用于预训练,他们这个现如今,AI医疗可谓是大模型落地趋势中的垂直领域之一。它备受AI大佬以及硅谷顶尖公司关注,是最重视的落地领域——比如在开源模型gpt-oss的评测中,医疗领域的表现排在数学、代码等热门能力之前展现;GPT-5发布会上,Altman就专门花时间体现了ChatGPT在医疗问诊场景中的实际价值。深度学习之父也一直笃信AI医疗的价值,前不久在中国的首次公开演讲中,也再次提到了AI对医疗行业的深远影响。
2025-08-29 17:35:32
1034
原创 多轮对话中的指代消解
GPT-4 的零样本指代消解能力,核心在于指令模板的结构化引导与对话状态的隐式建模。其 81.5 的 F1 分数和 15% 的性能提升,在工业级对话系统(如客服、代码助手)中已显著降低人工标注成本并提升交互流畅性。随着 GPT-4.1 在长上下文和工具调用方向的增强,指代消解正从“上下文感知”迈向“知识增强推理”的新阶段。
2025-08-19 16:26:00
1676
1
原创 HRM论文解读
受这种分层和多时间尺度的生物结构的启发,我们提出了分层推理模型(Hierarchical Reasoning Model, HRM)。HRM旨在显著增加有效计算深度。它具有两个耦合的循环模块:一个用于抽象、深思熟虑推理的高级(H)模块,以及一个用于快速、详细计算的低级(L)模块。这种结构通过我们称之为“”的过程,避免了标准循环模型的快速收敛。深度对于复杂推理的必要性,增加Transformer的宽度并不能提高性能,而增加深度至关重要。右图:标准架构达到饱和,无法从增加的深度中获益。
2025-08-01 15:27:14
1253
转载 新模型架构——HRM
此外,HRM 在连续空间中自然运行,这在生物学上是合理的,避免了为每个 token 分配相同的计算资源进而导致的低效。它包含两个在不同时间尺度上运行的循环网络,用于协同解决任务。作者在进一步讨论中表示,HRM 的图灵完备性与早期的神经推理算法(包括 Universal Transformer)类似,在给定足够的内存和时间约束的情况下,HRM 具有计算通用性。图 8-(e,f) 所示的结果显示出明显对比:未经过训练的模型中,高层模块与低层模块没有表现出任何层级分化,它们的 PR 值都较低,且几乎没有差异。
2025-07-23 10:53:44
682
原创 大模型7月进展
在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。通过自动扩展多样化编程任务的测试用例,Qwen团队创建了高质量的训练实例,进一步释放了强化学习的潜力。
2025-07-23 10:41:23
1279
原创 vllm eagle支持分析
(1)增加了eagle后,vllm速度反而变慢,在此issue有跟踪[Performance]: vllm Eagle performance is worse than expected · Issue #9565 · vllm-project/vllm · GitHub(2)该提出者对比vllm官方和eagle实现后,进行部分修复,提高了了速度,但不如不使用eagle的vllm,此PR 1月11已经合并至 master分支 替代topk/tree,批量,每个query只有一个位置,类似MQA,
2025-06-12 16:39:35
1606
转载 ms-swift学习笔记
SWIFT的eval能力使用了魔搭社区评测框架EvalScope,并进行了高级封装以支持各类模型的评测需求。注意:EvalScope支持许多其他的复杂能力,例如模型的性能评测,请直接使用EvalScope框架。(1)选择题格式(MCQ)适合用户是选择题的场景,评测指标为准确率(accuracy)。数据准备准备选择题格式的csv文件,该目录结构如下:mcq/├── example_dev.csv # (可选)文件名组成为`{subset_name}_dev.csv`,用于fewshot评测。
2025-05-24 16:52:38
3020
TensorFlow -- Sequence-to-Sequence Models.pdf
2016-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅