confiself-CSDN博客

原创 openClaw-RL学习

Hindsight-Guided On-Policy Distillation (OPD) 是OpenClaw-RL中一种关键的训练方法，旨在从“下一状态信号”中提取指令性信息，并将其转化为的训练信号，以指导模型改进。传统的强化学习（RL）通常使用标量奖励（例如+1表示成功，-1表示失败），这种奖励虽然能评估操作好坏，但丢失了大量关于“如何改进”的细节信息。OPD的目标就是从下一状态信号中恢复这些丢失的指令性信息。

2026-04-01 17:50:40 394

原创 deer-flow前端分析

使用的是默认模式，包含了UI需要的信息如需要修改为其他模式，可使用streamMode: ["values", "messages", "events"], // <--- 在这里设置// ... 其他参数});

2026-03-17 19:38:17 430

原创 deer-flow2本地启动（无make无nginx启动）

python3.12+nodejs22+uv环境nodejs22可以通过exe程序安装，自动完成pnpm安装pip install uv验证：pnpm --versionuv --version（1）拷贝config.example.yaml为congif.yaml去掉一个模型配置为自己的api，我这里配置为deepseek v3（2）拷贝当前目录下.env.example为.env.local去掉跨域请求注释，允许本地请求CORS_ORIGINS=http://localhost:3000（3）cd

2026-03-16 15:28:53 464

原创 A2UI实时渲染展示

/ catalog.json - 定义可用的组件类型},},"Card": {},"List": {},

2026-03-12 20:12:21 343

原创 deerflow分析2

这里的ToolMessage和Command来自：来自AI的回复，可能是一些text块。这里值得借鉴。

2026-03-12 08:55:43 349

原创 deer-flow2分析

manager流程分析支持自定义卡片通过这个客户端与飞书通讯吗。

2026-03-10 20:44:11 290

原创 nanobot分析

执行python .\nanobot\cli\commands.py agent -m "查询今天深圳天气，并可视化展示"这个命令，整个调用链路是什么样的，如何实现llm调用，记忆，技能，工具调用，给出具体调用哪个文件的哪一行。（2）在对话过程中主agent会根据自然语言的corn表达式，自动调用工具，执行的时候会，增加定时job，触发_arm_timer，并将jobs保存至磁盘。（1）gateway启动的时候，将定时任务注册为一个工具，并启动start，start中会加载磁盘的定时任务，进行执行。

2026-03-08 19:54:41 424

原创 gated deltanet

通过这两个门，模型实现了对记忆的细粒度、数据依赖性的管理，性能超越了无门控的线性注意力。这是 Gated Attention 在高效注意力领域的重要应用。为例，它将门控机制与线性注意力（Delta Rule）结合。这解决了线性注意力中记忆无限累积、无法遗忘的问题。

2026-02-27 17:11:36 261

原创 lighting attention

初始化： M = 0对于每个块 i = 1 到 N：1. 块内输出 = CausalAttention(Q_i, K_i, V_i)2. 块间输出 = Q_i * M // 使用历史摘要3. 当前块总输出 = 块内输出 + 块间输出4. 更新摘要： M = M + K_i^T * V_i // 为下一个块累加历史。

2026-02-27 16:30:50 382

原创 GLM5+minimax2.5+qwen3.5技术报告对比学习

GLM-5 通过构建“可验证环境”，将人类的主观判断转化为客观的自动化测试、规则引擎和模拟器信号。这种机制使得 Slime 框架能够在无人干预的情况下，让模型在真实环境中不断试错、自我优化，最终学会如何正确地完成任务。备注：自动判断是否成功是未来一个非常重要的事情MiniMax M2.5：原生Agent生产级模型的技术突破MiniMax M2.5是2026年2月发布的新一代文本模型，定位为“原生Agent生产级模型”。

2026-02-24 18:18:50 3233

原创 vibe coding自动化测试调研

本文调研了编程agent在自动化测试领域的发展趋势。随着AgentSkills的兴起，传统MCP功能正被各种自动化测试工具取代，如Playwright BrowserAutomation、pypict-claude-skill等测试工具。研究指出，未来的测试agent将整合设计、开发、调试全流程，并覆盖Web端和移动端测试。重点介绍了UI-TARS等智能测试agent，它们通过自然语言指令实现自动化操作，支持有界面和无界面环境，为构建自动化测试体系提供了新思路。

2026-02-09 11:09:57 595

原创 Figma mcp server

输入：Figma 文件链接（+ 可选节点 ID）+ Figma API 令牌（由 AI 工具传递给项目）；输出：轻量化、标准化的 Figma 设计数据（JSON），而非前端代码；前端代码形式：由 AI 工具生成，支持 HTML/CSS/JS、React/Vue/Svelte 等主流框架、Tailwind/Styled Components 等 CSS 方案，粒度覆盖单组件到整页布局。是「数据翻译层」：将 Figma 私有数据模型翻译为前端 / AI 可理解的标准化格式；

2026-02-05 17:45:23 1082

原创 Trae网站开发联调0代码实现

（1）首页挑战目标查询接口，入参为挑战者token、年度、季度，返回数据为json结构，为所有挑战者当前季度的所有数据，参考返回数据标准结构规范。无需分页，直接展示所有数据。

2026-02-04 12:04:31 1358

原创 GO环境配置

查看是否安装成功go version。

2026-01-31 22:57:43 406

原创 DeepSeek-OCR 2: Visual Causal Flow学习

SDPA 适配：使用 PyTorch 原生缩放点积注意力，兼顾效率与稳定性，适合批量 OCR 推理；动态位置编码：绝对 / 相对位置编码均支持插值缩放，适配不同分辨率的输入图像；分层特征处理：neck 层融合 + 逐步下采样，既保留字符细节，又提升特征维度适配语言模型；轻量化设计：窗口注意力将注意力计算复杂度从 O (N²) 降至 O (N²/W)（W 为窗口尺寸），降低显存占用。通过改造 SAM 的 ViT 编码器，既保留了 SAM 对图像细节的捕捉能力核心目标。

2026-01-29 17:49:29 833

原创 Engram论文学习

稀疏性是智能系统的一个反复出现的设计原则，主要通过混合专家（MoE）实现。尽管这种条件计算范式取得了成功，但语言信号固有的异质性表明在结构优化方面仍有很大的空间。组合推理和知识检索。虽然前者需要深入的动态计算，但文本的很大一部分——例如命名实体和公式化模式——是局部的、静态的和高度刻板的。经典 N-gram 模型（Brants et al., 2007;Nguyen, 2024）在捕获此类局部依赖关系方面的有效性表明，这些规律自然地表示为计算成本低廉的查找。

2026-01-13 17:37:04 726

原创前端代码渲染截图方案

建议：可以将图片宽度放大为375的倍数，不然看起来分辨率太小，不清晰。注意：和html的字体并不是完全一样，可以进一步优化。图标并不是完全一样。5、优化代码（图标需要转base64）

2026-01-13 10:04:23 92

原创 UI-Ins技术报告学习

UI-Ins-32B 获得了最佳的接地精度，在 UI-I2E-Bench 上得分 87.3%，在 ScreenSpot-Pro 上得分 57.0%，在 MMBench-GUI L2 上得分 84.9%。此外，我们的模型展示了强大的代理潜力，使用 UI-Ins-7B 作为执行器在 AndroidWorld 上实现了 74.1% 的成功率。我们关注指令的多样性，并揭示了一个根本性的不匹配：人类可以在多种指令视角中灵活地选择最有效的途径，而目前的模型则以狭隘、固定的风格进行训练。

2025-12-30 09:16:19 765

原创 MAI-UI技术报告学习

两个任务：grounding和GUI 导航能力动作空间：```<thinking>...```## Note``````## Note用户提问提示词```<thinking>...``````<thinking>...```## Notegrounding提示词## Task<answer></answer>

2025-12-29 18:29:03 1019

原创 GUI Agent数据集收集

1、MMBench-GUI：跨平台GUI代理的分层评估框架，modelscope我们很高兴发布MMBench-GUI，这是一个分层、多平台的基准框架和工具箱，用于评估GUI代理。MMBench-GUI包括四个评估级别：GUI内容理解、GUI元素定位、GUI任务自动化和GUI任务协作。我们还提出了集成准确性和效率的效率-质量区域（EQA）指标。MMBench-GUI为评估和指导未来GUI代理能力的发展提供了严格的标准。数据大小：1.05G45G，12.8号提交。

2025-12-25 15:02:26 358

原创 Step-GUI 技术报告学习

3）对人机交互惯例的世界知识。掌握人机交互惯例、布局和符号意义，能够对未见或部分观察到的界面进行推理。备注：需要对收集的爬虫grounding数据进行修改。

2025-12-18 10:46:06 1038

原创各模型GUI Agent能力比对

2025-12-17 16:53:19 249

原创 MiMo-V2-Flash学习

小米MiMo团队在12月16日晚上发布并开源了团队在官方博客中介绍，这是一款强大、高效且超快速的基座语言模型，在推理、编程和智能体场景中表现尤为出色，同时也是处理日常任务的优秀通用助手。

2025-12-17 16:11:08 535

原创 DeepSeekMath-V2学习

DeepSeekMath-V2 通过 **"生成器 - 验证器 - 元验证器" 三位一体架构和"验证器先行" 训练策略 **，实现了 AI 数学推理的质的飞跃，不仅在顶级数学竞赛中达到人类金牌水平，更建立了一个能够自我验证、自我完善的推理系统，为 AI 在科学证明、复杂推理领域的应用开辟了新道路。注：本介绍基于 DeepSeekAI 于 2025 年 11 月 27 日发布的官方论文和技术文档。

2025-11-29 11:39:14 1063

原创通义灵码分析ms-swift框架中CHORD算法实现

CHORD 是一种结合了监督微调(SFT)和强化学习(RL)的算法，通过动态权重控制两者的平衡。核心思想是在 GRPO 损失函数中引入 SFT 损失，实现模仿学习和自主探索的平衡。

2025-11-29 10:51:26 726

原创 labelImg/QtScrcpy-win-x64-v3.3.3

手机需要打开USB开发者调试模式，USB数据传输类型选择文件传输，连上后在这里展示，双击后，就可以在PC屏幕上看到手机屏幕了。结合自己开发的标注工具，能实现PC页面实时标注。解压后，可以直接运行exe程序。

2025-11-20 11:35:24 281

原创线性注意力

好的，我们来详细拆解图片中关于计算复杂度的分析。核心结论是：文中描述的线性Attention方案，其计算复杂度为 O(nd²)。这意味着计算量随着序列长度n线性增长，而不是像标准Softmax Attention那样平方增长。关键在于 d是固定的模型超参数（隐藏层维度），而n是变化的序列长度。d是常数：在模型设计好后，隐藏层的维度d（例如512, 768, 1024等）就固定了。它不会随着输入序列的增长而变化。n是变量：输入序列的长度n。

2025-09-15 18:51:18 1367

原创自动化测试DroidRun

继和！开源 AI 手机操作神器，解锁 Android 自动化新时代！

2025-09-08 19:54:27 474

原创 AndroidWorld+mobileRL

这种设计使得代理不仅知道“任务是否完成”，更能理解“如何高效且正确地完成任务”，从而克服了传统稀疏奖励和单一最终答案奖励的局限性。

2025-09-08 19:54:16 923

原创 qwen2.5-vl技术报告学习

该数据集涵盖了各种多模态数据，例如图像描述、图文交错数据、光学字符识别(OCR)数据、视觉知识（例如，名人、地标、植物和动物识别）、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位以及基于代理的交互数据。交错图像-文本数据对于多模态学习而言，交错图像-文本数据至关重要，它提供了三个关键优势：（1）通过同步的视觉和文本线索实现上下文学习（Alayrac et al., 2022），（2）在图像缺失时保持强大的纯文本能力（Lin et al., 2024），以及（3）包含广泛的通用信息。

2025-09-03 18:20:38 854

原创多模态模型拼接训练

在确定方案可行后笔者计划使用完整数据集进行微调训练，然而考虑到训练数据量仅仅只有整个模型的12M，因此笔者按参数量与训练Token的比值为1:10采样数据集，即总共从数据集中采样出。################# 输入文本 ################################## 输入文本 ################################## 输入文本 ################################## 输入文本 #################

2025-09-03 15:10:44 836

原创大模型8月进展

大型验证器系统医学领域适应备注：应该是参考kimi k2的技术。但kimi k2是用于预训练，他们这个现如今，AI医疗可谓是大模型落地趋势中的垂直领域之一。它备受AI大佬以及硅谷顶尖公司关注，是最重视的落地领域——比如在开源模型gpt-oss的评测中，医疗领域的表现排在数学、代码等热门能力之前展现；GPT-5发布会上，Altman就专门花时间体现了ChatGPT在医疗问诊场景中的实际价值。深度学习之父也一直笃信AI医疗的价值，前不久在中国的首次公开演讲中，也再次提到了AI对医疗行业的深远影响。

2025-08-29 17:35:32 1034

原创多轮对话中的指代消解

GPT-4 的零样本指代消解能力，核心在于指令模板的结构化引导与对话状态的隐式建模。其 81.5 的 F1 分数和 15% 的性能提升，在工业级对话系统（如客服、代码助手）中已显著降低人工标注成本并提升交互流畅性。随着 GPT-4.1 在长上下文和工具调用方向的增强，指代消解正从“上下文感知”迈向“知识增强推理”的新阶段。

2025-08-19 16:26:00 1676 1

原创 HRM论文解读

受这种分层和多时间尺度的生物结构的启发，我们提出了分层推理模型（Hierarchical Reasoning Model, HRM）。HRM旨在显著增加有效计算深度。它具有两个耦合的循环模块：一个用于抽象、深思熟虑推理的高级（H）模块，以及一个用于快速、详细计算的低级（L）模块。这种结构通过我们称之为“”的过程，避免了标准循环模型的快速收敛。深度对于复杂推理的必要性，增加Transformer的宽度并不能提高性能，而增加深度至关重要。右图：标准架构达到饱和，无法从增加的深度中获益。

2025-08-01 15:27:14 1253

转载新模型架构——HRM

此外，HRM 在连续空间中自然运行，这在生物学上是合理的，避免了为每个 token 分配相同的计算资源进而导致的低效。它包含两个在不同时间尺度上运行的循环网络，用于协同解决任务。作者在进一步讨论中表示，HRM 的图灵完备性与早期的神经推理算法（包括 Universal Transformer）类似，在给定足够的内存和时间约束的情况下，HRM 具有计算通用性。图 8-(e,f) 所示的结果显示出明显对比：未经过训练的模型中，高层模块与低层模块没有表现出任何层级分化，它们的 PR 值都较低，且几乎没有差异。

2025-07-23 10:53:44 682

原创大模型7月进展

在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器使用）和Agentic Tool-Use（智能体工具调用）三类任务中获得了开源SOTA，超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。通过自动扩展多样化编程任务的测试用例，Qwen团队创建了高质量的训练实例，进一步释放了强化学习的潜力。

2025-07-23 10:41:23 1279

TensorFlow -- Sequence-to-Sequence Models.pdf

PCA和FLD两种不同方法实现人脸识别

apache-jmeter-5.4.1.zip

mobilenet_v1_1.0_224.tar

inception_v3_2016_08_28.tar.gz

电机控制论文

空空如也