自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

加入“Super Entity”,与全能开发团队共探AI智能体与数字人项目,开启前沿技术之旅。

专注前后端开发与部署运维,助力您的AI构想落地。私聊我,携手共创AI未来!

  • 博客(3039)
  • 收藏
  • 关注

原创 Pydantic动态模型构建:运行时创建参数校验模型

browser-use webui的是一个小而精的工程范例。递归架构自调用处理嵌套结构防御性编程:处理非法标识符、空枚举、缺失类型等边界情况约束传递:将JSON Schema的映射到Pydantic Field核心启发:Pydantic不仅是"静态类型工具",配合和类型反射,它可以成为运行时配置校验的强大引擎。

2026-05-06 18:50:56 89

原创 Python项目结构最佳实践:从browser-use webui学到的

browser-use webui的项目结构是一个中型Python应用的教科书式模板src布局:源码与项目根目录分离,便于打包和安装分层架构:五层职责清晰,新人快速定位代码位置组件拆分:按Tab/功能拆分文件,避免单体文件膨胀配置管理.envos.getenv简单有效依赖锁定:核心库固定版本,生产环境可复现推荐:下一个Python项目,直接套用这套结构。它经过了真实生产环境的检验。

2026-05-06 18:50:51 100

原创 AI Agent错误处理与容错设计:连续失败、超时与降级

browser-use的容错设计遵循"简单即健壮机制实现复杂度效果连续失败计数器1个int变量防止死循环超时控制避免永久挂起异常冒泡统一错误处理功能降级配置切换提高可用性给开发者的建议:不要过度设计容错。一个计数器 + 合理的阈值(建议3~5),足以应对90%的生产环境问题。

2026-05-06 18:50:47 229

原创 AI Agent安全与伦理:CORS禁用、隐私保护与合规边界

技术是中性的,但使用技术的人必须承担道德和法律责任。最小权限原则:不开启,除非绝对必要数据本地化:敏感任务使用Ollama本地模型合规审查:遵守目标网站的robots.txt和服务条款透明审计:保留GIF录制和操作日志,确保可追溯最后的话:AI Agent的终极价值不是替代人类,而是将人类从重复劳动中解放,让我们专注于更有创造性的工作。请用这份能力做正确的事。

2026-05-06 18:50:44 202

原创 人机协作HITL实现:当AI Agent向你求助时

人机协作不是Agent的"失败",而是能力边界的诚实声明。非阻塞等待让Agent暂停而不卡死状态透明:求助信息实时显示在Chatbot中,用户随时知晓Agent状态超时保护:避免Agent永久等待,无人值守时也能自动退出核心哲学:最好的AI Agent不是替代人类,而是在需要时恰当地邀请人类参与。

2026-05-06 18:50:36 208

原创 配置持久化与状态管理:JSON配置的加载与保存

配置持久化看似简单,实则涉及前后端状态同步的多个细节。组件ID命名空间是配置持久化的基础(生成器yield支持Gradio级联回调更新防御性加载跳过未知键和非法类型,保证兼容性扩展建议:可将配置与具体任务绑定,实现"任务模板"功能——不同网站的不同操作流程,一键切换配置。

2026-05-06 18:50:31 248

原创 基于浏览器自动化的RAG数据采集:替代传统爬虫的新范式

初始化LLMtemperature=0.3, # 低温度保证输出稳定# 初始化浏览器# 定义采集Agenttask = """访问 https://docs.example.com/guide,完成以下任务:1. 提取页面中所有H2标题和对应的正文段落2. 对于每个"API参考"链接,点击进入并提取参数表格3. 将所有内容按Markdown格式输出4. 如果遇到登录页,跳过并记录URL输出格式:## 页面标题URL: xxx内容摘要:xxx## API参数。

2026-05-06 18:50:27 26

原创 并行浏览器搜索的并发控制:Semaphore与资源管理

并行浏览器搜索是Deep Research的性能核心,但"并发"不等于"无限并行"。Semaphore限流:硬限制同时运行的浏览器数量查询裁剪防止LLM生成过多查询停止信号实现全链路优雅退出异常隔离确保单个任务失败不影响整体黄金法则:并行数 = min(用户设置, 查询数量, 机器承载力)。在WebUI中,建议将默认值设为1,高级用户可自行调高。

2026-05-06 18:50:22 273

原创 Use-Cases 示例总览

这个文件夹包含了 10 个实际应用场景的示例,涵盖了从简单的网页自动化到复杂的购物、求职等任务。在 Instacart(美国在线杂货购物平台)上自动搜索商品并添加到购物车。适用场景电商网站自动化需要提取结构化数据的任务批量商品搜索和比价2️⃣ [apply_to_job.py](file://e:\browser-use\browser-use\examples\use-cases\apply_to_job.py) - 自动填写求职申请功能说明自动在 Rochester Regional

2026-05-06 18:50:17 89

原创 browser-use 的工作原理

browser-use 并不完全依赖 LLM 的视觉能力,它采用了。

2026-05-06 18:50:12 250

原创 DeepSeek R1推理模型实战:思维链提取与应用

DeepSeek-R1的思维链不是"冗余输出",而是AI可解释性的重要突破。browser-use webui通过和两个适配类,让R1的推理能力无缝融入浏览器自动化工作流。核心建议:在开发和调试阶段全程开启R1,上线后根据成本敏感度和延迟要求,灵活切换chat/reasoner版本。

2026-05-04 18:40:17 16

原创 Browser-Use MCP Server 使用指南

是一种标准协议,允许 AI 助手(如 Claude、Cursor)与外部工具和服务进行交互。Browser-Use 提供了MCP Server,让你可以通过 AI 助手直接控制浏览器进行自动化操作。

2026-05-04 18:32:16 99

原创 AI Agent状态机设计:暂停、恢复、停止的优雅实现

browser_use.agent.service.Agent.state 伪代码self.paused: bool = False # 暂停中self.stopped: bool = False # 已停止self.consecutive_failures: int = 0 # 连续失败计数webui在此基础上增加了fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;

2026-05-04 18:31:23 351

原创 asyncio高级应用:AI Agent中的并发、信号与事件

asyncio是browser-use webui的"隐形骨架"。模式应用场景源码位置流式UI更新人机协作等待浏览器并发控制Ctrl+C优雅处理用户主动终止核心原则:在asyncio世界里,永远不要用或同步阻塞调用。哪怕等待1秒钟,也要写成,让事件循环有机会处理其他任务。

2026-05-04 18:30:41 88

原创 浏览器自动化中的视觉理解:截图与DOM融合感知

视觉+DOM的融合感知是现代浏览器自动化的核心竞争力。JPEG压缩+Base64编码:控制Token成本元素索引化:把复杂DOM简化为LLM可理解的编号列表可选Vision模式:根据场景灵活开关视觉输入实时截图流:让用户"看见"Agent在看什么下一步:尝试用GPT-4o或Gemini-2.0等原生多模态模型,对比纯文本模型的决策准确率差异。

2026-05-04 18:29:58 533

原创 多LLM Provider适配器模式:一套代码接入15+大模型

browser-use webui的LLM适配层设计体现了"约定优于配置统一的接口环境变量自动 fallback 机制预定义模型列表降低用户选择成本特殊模型(DeepSeek-R1)的透明化处理今天用DeepSeek(便宜高效)明天切GPT-4o(视觉任务)后天试本地模型(隐私合规)

2026-05-04 18:29:22 177

原创 Browser-Use 完整使用指南

Browser-Use 是一个。

2026-05-04 18:26:22 208

原创 从零打造AI浏览器助手:Browser-Use WebUI 深度解析与实战指南

Browser-Use WebUI 是一个工程化程度极高的开源AI浏览器自动化平台。分层解耦:WebUI / Manager / Agent / Browser / LLM 五层各司其职,通过清晰的接口边界实现高内聚低耦合。状态驱动:WebuiManager的双向组件映射和Agent的状态机设计(paused/stopped/consecutive_failures),让复杂的异步交互变得可控。扩展友好。

2026-05-04 18:23:44 743

原创 Browser-Use 项目全面解析

Browser-Use 是一个。

2026-05-04 18:18:46 282

原创 web-ui的MCP支持情况

所以你现在就可以直接使用MCP功能了!只需要准备好MCP服务器的配置文件并在WebUI中上传即可。Agent在执行任务时,可以根据需要自动调用这些MCP工具来扩展其能力。创建一个JSON文件(例如。注册的MCP工具会以。

2026-05-04 18:05:27 227

原创 企业级安全设计:OS Keychain、输入注入防护与高危操作确认

凭证OS级存储:绝不将Secret写入文件或环境变量输入白名单:所有参数必须经过类型和枚举值校验高危确认:删除、修改类操作必须显式--yes输出消毒:错误信息不暴露内部路径或敏感配置传输安全:强制TLS 1.2+,注入安全头。

2026-04-28 19:16:21 234

原创 飞书IM模块深度解析:消息发送、群聊管理与内容转换

消息类型分离:text/post/image/file/card各有不同的content格式媒体先上传:图片/文件必须先获取key,再构造消息体ID类型明确:chat_id/open_id/user_id/union_id/email不能混用内容转换自动化:Markdown→Post、路径→image_key等转换由Shortcuts封装。

2026-04-28 19:16:17 147

原创 飞书Calendar模块深度解析:日程查询、忙闲检测与智能邀请

智能默认:+agenda默认查"今天",省去时间参数批量忙闲:freebusy支持一次查询多人的空闲状态时间标准化:统一使用Unix秒级时间戳。

2026-04-28 19:16:12 391

原创 飞书Base与Sheets模块深度解析:多维表格与电子表格的数据操作

Base是数据库:表-字段-记录的结构化模型,支持视图和权限Sheets是Excel:A1表示法、公式、自由格式分页必备:Base记录数通常超过单页限制,必须实现分页批量优先:大量数据操作务必使用batch接口。

2026-04-28 19:16:08 482

原创 飞书Doc与Drive模块深度解析:文档协作与云盘文件管理

Doc是块结构:不是纯文本,而是heading/paragraph/bullet/image等块的组合Drive处理二进制:上传/下载需要multipart/form-data和流式处理导出是异步的:PDF/Word导出需要创建任务→轮询→下载的三步流程。

2026-04-28 19:16:02 317

原创 飞书Mail模块深度解析:邮件收发、草稿编辑与EML构建

草稿-发送分离:支持预览和修改Patch编辑:增量修改草稿,而非全量替换EML标准兼容:导出为RFC 5322标准格式引用链处理:Reply/Fwd自动处理主题前缀和原文引用。

2026-04-28 19:15:57 264

原创 实时事件订阅与WebSocket推送:飞书事件系统的CLI接入实战

WebSocket长连接:比轮询更高效、实时事件路由:根据event_type分发到不同处理器过滤机制:正则过滤减少无效处理断线重连:生产环境必须具备的容错能力。

2026-04-28 19:15:50 312

原创 元数据驱动与API命令自动生成:registry体系与飞书OAPI同步机制

文档即代码:元数据从平台文档自动生成动态注册:启动时根据元数据构建命令树自动同步:构建时自动拉取最新API定义类型安全:参数类型和位置自动校验。

2026-04-28 19:15:45 395

原创 从0到1构建AI Agent完整实战:Python集成飞书CLI的工程方案

通过20篇博客,我们完整解剖了lark-cli主题核心收获整体架构三层命令体系的设计哲学OAuth设备流RFC 8628的完整实现AI SkillsAgent操作手册的设计范式多身份切换user/bot/auto的决策链路Shortcuts声明式快捷命令框架Client框架分页、重试、安全头输出格式化JSON/Table/CSV/NDJSON多格式分页引擎全量聚合 vs 流式输出Factory模式依赖注入与测试友好架构错误处理结构化错误与权限增强安全设计。

2026-04-28 19:15:39 333

原创 Dify 源码分析报告

前后端分离:后端 API + 前端 Web 分离架构领域驱动设计:后端采用 DDD 架构,清晰的领域边界模块化设计:核心功能模块化,易于扩展容器化部署:使用 Docker 容器化部署,便于管理和扩展多服务架构:微服务化设计,各服务职责明确类别技术/框架版本后端框架Flask前端框架Next.js15.5.4前端库React19.1.1数据库缓存Redis任务队列Celery样式3.4.14状态管理Zustand4.5.2容器化Docker模块化设计。

2026-04-28 19:15:34 343

原创 快捷命令系统设计与实现:飞书Shortcuts的运行时框架剖析

Service string // 业务域:im/calendar/base/...Command string // 命令名:+messages-send/+agenda/...Description string // 帮助文本AuthTypes []string // 支持的身份:["user"]/["bot"]/["user","bot"]HasFormat bool // 是否支持--format和--jqFlags []Flag // 自定义参数定义。

2026-04-26 22:30:23 35

原创 多身份切换机制深度解析:user、bot与auto的底层实现

const (关键设计:Identity是一个string类型的别名,而非struct或int枚举。直接作为CLI flag的字符串值(“user”/“bot”/“auto”)零成本转换为string进行比对在JSON中直接序列化为可读字符串多身份切换不是简单的"传个参数",而是一个涉及配置解析、Token管理、降级策略、错误提示的系统工程。lark-cli优先级明确:显式 > 配置 > 自动,用户意图必须被尊重安全降级:不确定时选择bot而非报错,保证基础可用性状态透明。

2026-04-26 22:29:43 178

原创 AI Agent Skills开发完全指南:让大模型“学会“操作企业SaaS

在lark-cli的语境中,Skill是:一套结构化的文档和工具定义,教会AI Agent如何调用特定领域的CLI命令,完成特定的业务目标。Mermaid 渲染失败: Parse error on line 2:... LR A[用户意图"给研发群发图"] --> B[AI Ag图1:Skill在AI Agent调用链中的位置Skills是AI Agent与企业系统之间的"编译器"——将自然语言意图编译为精确的机器指令。lark-cli结构化优于自然语言。

2026-04-26 22:29:00 164

原创 AI Agent Skills开发完全指南:让大模型“学会“操作企业SaaS

在lark-cli的语境中,Skill是:一套结构化的文档和工具定义,教会AI Agent如何调用特定领域的CLI命令,完成特定的业务目标。Mermaid 渲染失败: Parse error on line 2:... LR A[用户意图"给研发群发图"] --> B[AI Ag图1:Skill在AI Agent调用链中的位置Skills是AI Agent与企业系统之间的"编译器"——将自然语言意图编译为精确的机器指令。lark-cli结构化优于自然语言。

2026-04-26 22:28:26 140

原创 飞书API认证与权限管理深度解析

本文全面讲解飞书开放平台的认证体系,深入分析User Access Token (UAT)、Tenant Access Token (TAT)、App Access Token的区别与应用场景。详细解读scope权限模型、多身份切换机制、权限检查与自动修复策略。通过丰富的Go源码分析和Python参考实现,帮助开发者构建安全、高效的认证系统。文章特别关注AI Agent场景下的认证优化,提供完整的故障排查指南和最佳实践建议。关键词:飞书认证;OAuth 2.0;权限管理;身份切换;Token刷新在现代企业应

2026-04-26 22:27:54 357

原创 CLI工具三层架构设计哲学:Shortcuts、API Commands与Raw API的取舍之道

三层架构的本质不是"技术复杂性",而是**“用户分层服务”**。lark-cli小白用户拿到的是打开即用的主力刀片(Shortcuts)进阶用户可以展开螺丝刀、锯子(API Commands)专家用户能直接取出内部工具进行极限操作(Raw API)而连接这三层的,是一套共享的认证、客户端、输出引擎。这意味着无论用户选择哪一层,他们享受到的安全保障、错误提示、格式化能力都是一致的。我的用户中最常见的操作是什么?能否做到零参数?当用户需要精确控制时,我是否提供了1:1的API映射?

2026-04-26 22:27:19 334

原创 AI Agent Skills开发完全指南

Skills的价值✅Agent友好: 结构化文档便于AI解析✅标准化: 统一的SKILL.md格式✅模块化: 独立的Skills易于维护和更新✅组合性: 可以组合多个Skills实现复杂工作流开发最佳实践✅ 遵循SKILL.md规范✅ 提供详细的references文档✅ 包含完整的示例代码✅ 列出所有可能的错误和解决方案✅ 强调安全注意事项文档质量要素✅ 清晰的Core Concepts说明✅ 可视化的Resource Relationships。

2026-04-26 22:26:44 642

原创 OAuth 2.0设备授权流完全实战:从RFC 8628到lark-cli实现

✅ 必须自动追加 offline_access 到scope✅ 必须实现 slow_down 的指数退避✅ 必须设置 max_poll_attempts 防止死循环✅ 必须支持 context/取消事件,让Agent可控✅ 网络错误应记录日志而非退出,增强鲁棒性✅ 优先使用 verification_uri_complete 提升体验✅ Token存储应包含 scope、obtained_at、expires_in✅ 定期检测 refresh_token 有效期,提前预警。

2026-04-26 22:26:13 396

原创 飞书CLI架构深度解析:如何为AI Agent打造200+命令的企业级命令行工具

我们构建一个智能会议助手Agent查询用户今日会议提取每个会议的参会者搜索参会者的邮箱发送会议纪要模板邮件通过深入剖析lark-cli的源码,我们可以提炼出以下可复用的工程范式。

2026-04-26 21:53:52 1038

原创 lark-cli飞书CLI

这是一个lark-cli),用 Go 语言编写,面向人类用户和 AI Agent 的双模式命令行工具。

2026-04-26 21:36:44 219

网络优化Windows系统GitHub访问加速方案:通过IP绑定与DNS缓存刷新解决连接慢问题

内容概要:本文介绍了在Windows系统下通过修改hosts文件优化访问GitHub的方法。通过使用IP查询工具获取GitHub相关域名的最新IP地址,手动将其添加到本地hosts文件中,从而解决因网络问题导致的GitHub访问缓慢或无法访问的情况。具体操作包括查询IP、编辑系统hosts文件、刷新DNS缓存三个步骤,有效提升访问稳定性与加载速度。; 适合人群:经常访问GitHub但遭遇网络延迟或连接失败的技术人员、开发者及学生用户。; 使用场景及目标:①解决国内网络环境下GitHub访问困难的问题;②提高代码 clone、pull 等操作的效率;③适用于无法正常解析GitHub域名或SSL握手超时的场景; 阅读建议:操作前需确保以管理员权限编辑hosts文件,避免保存失败;建议每次修改前备份原文件,并在IP失效时及时更新为最新地址。

2025-10-27

软件工程+Java微服务架构+社区养老系统+技术设计文档

内容概要:本技术文档详细阐述了一个基于微服务架构的社区养老服务平台的整体设计方案,涵盖了从项目背景、技术架构、功能模块到团队配置等各个方面 适用人群:适用于软件开发团队、项目经理、系统架构师及相关技术人员参考使用 使用场景及目标:旨在为社区养老服务系统的开发提供完整的技术指导和实施路径,帮助团队高效构建高质量的养老服务系统 其他说明:文档将根据实际开发进展持续更新完善

2025-10-27

【大模型部署】基于vLLM与Ubuntu搭建:支持GPU加速的Qwen系列模型本地化推理系统配置 AI大模型部署+VLLM+Windows环境大模型服务搭建+实践指南

本文详细介绍了在Windows系统上通过WSL2环境的Ubuntu使用vLLM部署大语言模型的完整流程,涵盖环境准备、虚拟环境配置、模型下载、Docker容器配置及服务部署测试等关键步骤。适用于AI开发者、机器学习爱好者和希望在本地环境中运行大语言模型的技术人员。可用于构建本地AI服务、模型测试和开发环境搭建等场景。资源包含完整的命令示例和故障排除方法,帮助用户快速掌握大模型部署技能。 该资源具有以下特点: 从零开始的完整部署指南,适合初学者按步骤操作 包含常见问题解答和解决方案 详细说明了WSL2、Docker、Ubuntu和NVIDIA GPU配置要点

2025-10-26

【大模型部署】基于vLLM与Docker的WSL虚拟环境搭建:支持GPU加速的Qwen系列模型本地化推理系统配置

内容概要:本文详细介绍了如何在WSL(Windows Subsystem for Linux)环境下通过Docker部署vLLM大模型服务,涵盖环境准备、虚拟环境配置、模型下载与容器化运行全流程。重点包括WSL发行版管理、Docker与NVIDIA GPU支持配置、使用ModelScope或Hugging Face下载Qwen系列模型、创建隔离的Python虚拟环境以及通过docker-compose启动vLLM推理服务并进行接口测试。同时提供了常见问题解决方案,如权限设置、网络配置、资源限制调整等。; 适合人群:具备Linux基础、熟悉Docker和Python开发,从事AI模型部署或运维的工程师及研究人员;适合希望在本地Windows系统上运行大模型推理任务的技术人员。; 使用场景及目标:①在本地开发环境快速搭建基于vLLM的大模型推理服务;②利用GPU加速实现高效模型部署;③集成大模型后端(如Qwen)与前端应用(如Dify),构建完整AI应用链路;④掌握模型下载、容器编排、API调用等关键技术环节。; 阅读建议:操作前确保已安装WSL2、Docker Desktop并配置好GPU驱动;严格按照步骤执行,注意路径映射与权限设置;建议在虚拟环境中管理依赖以避免冲突;可结合实际模型替换文中示例路径,并根据硬件资源调整GPU内存和交换空间参数。

2025-10-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除