- 博客(3039)
- 收藏
- 关注
原创 Pydantic动态模型构建:运行时创建参数校验模型
browser-use webui的是一个小而精的工程范例。递归架构自调用处理嵌套结构防御性编程:处理非法标识符、空枚举、缺失类型等边界情况约束传递:将JSON Schema的映射到Pydantic Field核心启发:Pydantic不仅是"静态类型工具",配合和类型反射,它可以成为运行时配置校验的强大引擎。
2026-05-06 18:50:56
89
原创 Python项目结构最佳实践:从browser-use webui学到的
browser-use webui的项目结构是一个中型Python应用的教科书式模板src布局:源码与项目根目录分离,便于打包和安装分层架构:五层职责清晰,新人快速定位代码位置组件拆分:按Tab/功能拆分文件,避免单体文件膨胀配置管理.envos.getenv简单有效依赖锁定:核心库固定版本,生产环境可复现推荐:下一个Python项目,直接套用这套结构。它经过了真实生产环境的检验。
2026-05-06 18:50:51
100
原创 AI Agent错误处理与容错设计:连续失败、超时与降级
browser-use的容错设计遵循"简单即健壮机制实现复杂度效果连续失败计数器1个int变量防止死循环超时控制避免永久挂起异常冒泡统一错误处理功能降级配置切换提高可用性给开发者的建议:不要过度设计容错。一个计数器 + 合理的阈值(建议3~5),足以应对90%的生产环境问题。
2026-05-06 18:50:47
229
原创 AI Agent安全与伦理:CORS禁用、隐私保护与合规边界
技术是中性的,但使用技术的人必须承担道德和法律责任。最小权限原则:不开启,除非绝对必要数据本地化:敏感任务使用Ollama本地模型合规审查:遵守目标网站的robots.txt和服务条款透明审计:保留GIF录制和操作日志,确保可追溯最后的话:AI Agent的终极价值不是替代人类,而是将人类从重复劳动中解放,让我们专注于更有创造性的工作。请用这份能力做正确的事。
2026-05-06 18:50:44
202
原创 人机协作HITL实现:当AI Agent向你求助时
人机协作不是Agent的"失败",而是能力边界的诚实声明。非阻塞等待让Agent暂停而不卡死状态透明:求助信息实时显示在Chatbot中,用户随时知晓Agent状态超时保护:避免Agent永久等待,无人值守时也能自动退出核心哲学:最好的AI Agent不是替代人类,而是在需要时恰当地邀请人类参与。
2026-05-06 18:50:36
208
原创 配置持久化与状态管理:JSON配置的加载与保存
配置持久化看似简单,实则涉及前后端状态同步的多个细节。组件ID命名空间是配置持久化的基础(生成器yield支持Gradio级联回调更新防御性加载跳过未知键和非法类型,保证兼容性扩展建议:可将配置与具体任务绑定,实现"任务模板"功能——不同网站的不同操作流程,一键切换配置。
2026-05-06 18:50:31
248
原创 基于浏览器自动化的RAG数据采集:替代传统爬虫的新范式
初始化LLMtemperature=0.3, # 低温度保证输出稳定# 初始化浏览器# 定义采集Agenttask = """访问 https://docs.example.com/guide,完成以下任务:1. 提取页面中所有H2标题和对应的正文段落2. 对于每个"API参考"链接,点击进入并提取参数表格3. 将所有内容按Markdown格式输出4. 如果遇到登录页,跳过并记录URL输出格式:## 页面标题URL: xxx内容摘要:xxx## API参数。
2026-05-06 18:50:27
26
原创 并行浏览器搜索的并发控制:Semaphore与资源管理
并行浏览器搜索是Deep Research的性能核心,但"并发"不等于"无限并行"。Semaphore限流:硬限制同时运行的浏览器数量查询裁剪防止LLM生成过多查询停止信号实现全链路优雅退出异常隔离确保单个任务失败不影响整体黄金法则:并行数 = min(用户设置, 查询数量, 机器承载力)。在WebUI中,建议将默认值设为1,高级用户可自行调高。
2026-05-06 18:50:22
273
原创 Use-Cases 示例总览
这个文件夹包含了 10 个实际应用场景的示例,涵盖了从简单的网页自动化到复杂的购物、求职等任务。在 Instacart(美国在线杂货购物平台)上自动搜索商品并添加到购物车。适用场景电商网站自动化需要提取结构化数据的任务批量商品搜索和比价2️⃣ [apply_to_job.py](file://e:\browser-use\browser-use\examples\use-cases\apply_to_job.py) - 自动填写求职申请功能说明自动在 Rochester Regional
2026-05-06 18:50:17
89
原创 DeepSeek R1推理模型实战:思维链提取与应用
DeepSeek-R1的思维链不是"冗余输出",而是AI可解释性的重要突破。browser-use webui通过和两个适配类,让R1的推理能力无缝融入浏览器自动化工作流。核心建议:在开发和调试阶段全程开启R1,上线后根据成本敏感度和延迟要求,灵活切换chat/reasoner版本。
2026-05-04 18:40:17
16
原创 Browser-Use MCP Server 使用指南
是一种标准协议,允许 AI 助手(如 Claude、Cursor)与外部工具和服务进行交互。Browser-Use 提供了MCP Server,让你可以通过 AI 助手直接控制浏览器进行自动化操作。
2026-05-04 18:32:16
99
原创 AI Agent状态机设计:暂停、恢复、停止的优雅实现
browser_use.agent.service.Agent.state 伪代码self.paused: bool = False # 暂停中self.stopped: bool = False # 已停止self.consecutive_failures: int = 0 # 连续失败计数webui在此基础上增加了fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;
2026-05-04 18:31:23
351
原创 asyncio高级应用:AI Agent中的并发、信号与事件
asyncio是browser-use webui的"隐形骨架"。模式应用场景源码位置流式UI更新人机协作等待浏览器并发控制Ctrl+C优雅处理用户主动终止核心原则:在asyncio世界里,永远不要用或同步阻塞调用。哪怕等待1秒钟,也要写成,让事件循环有机会处理其他任务。
2026-05-04 18:30:41
88
原创 浏览器自动化中的视觉理解:截图与DOM融合感知
视觉+DOM的融合感知是现代浏览器自动化的核心竞争力。JPEG压缩+Base64编码:控制Token成本元素索引化:把复杂DOM简化为LLM可理解的编号列表可选Vision模式:根据场景灵活开关视觉输入实时截图流:让用户"看见"Agent在看什么下一步:尝试用GPT-4o或Gemini-2.0等原生多模态模型,对比纯文本模型的决策准确率差异。
2026-05-04 18:29:58
533
原创 多LLM Provider适配器模式:一套代码接入15+大模型
browser-use webui的LLM适配层设计体现了"约定优于配置统一的接口环境变量自动 fallback 机制预定义模型列表降低用户选择成本特殊模型(DeepSeek-R1)的透明化处理今天用DeepSeek(便宜高效)明天切GPT-4o(视觉任务)后天试本地模型(隐私合规)
2026-05-04 18:29:22
177
原创 从零打造AI浏览器助手:Browser-Use WebUI 深度解析与实战指南
Browser-Use WebUI 是一个工程化程度极高的开源AI浏览器自动化平台。分层解耦:WebUI / Manager / Agent / Browser / LLM 五层各司其职,通过清晰的接口边界实现高内聚低耦合。状态驱动:WebuiManager的双向组件映射和Agent的状态机设计(paused/stopped/consecutive_failures),让复杂的异步交互变得可控。扩展友好。
2026-05-04 18:23:44
743
原创 web-ui的MCP支持情况
所以你现在就可以直接使用MCP功能了!只需要准备好MCP服务器的配置文件并在WebUI中上传即可。Agent在执行任务时,可以根据需要自动调用这些MCP工具来扩展其能力。创建一个JSON文件(例如。注册的MCP工具会以。
2026-05-04 18:05:27
227
原创 企业级安全设计:OS Keychain、输入注入防护与高危操作确认
凭证OS级存储:绝不将Secret写入文件或环境变量输入白名单:所有参数必须经过类型和枚举值校验高危确认:删除、修改类操作必须显式--yes输出消毒:错误信息不暴露内部路径或敏感配置传输安全:强制TLS 1.2+,注入安全头。
2026-04-28 19:16:21
234
原创 飞书IM模块深度解析:消息发送、群聊管理与内容转换
消息类型分离:text/post/image/file/card各有不同的content格式媒体先上传:图片/文件必须先获取key,再构造消息体ID类型明确:chat_id/open_id/user_id/union_id/email不能混用内容转换自动化:Markdown→Post、路径→image_key等转换由Shortcuts封装。
2026-04-28 19:16:17
147
原创 飞书Calendar模块深度解析:日程查询、忙闲检测与智能邀请
智能默认:+agenda默认查"今天",省去时间参数批量忙闲:freebusy支持一次查询多人的空闲状态时间标准化:统一使用Unix秒级时间戳。
2026-04-28 19:16:12
391
原创 飞书Base与Sheets模块深度解析:多维表格与电子表格的数据操作
Base是数据库:表-字段-记录的结构化模型,支持视图和权限Sheets是Excel:A1表示法、公式、自由格式分页必备:Base记录数通常超过单页限制,必须实现分页批量优先:大量数据操作务必使用batch接口。
2026-04-28 19:16:08
482
原创 飞书Doc与Drive模块深度解析:文档协作与云盘文件管理
Doc是块结构:不是纯文本,而是heading/paragraph/bullet/image等块的组合Drive处理二进制:上传/下载需要multipart/form-data和流式处理导出是异步的:PDF/Word导出需要创建任务→轮询→下载的三步流程。
2026-04-28 19:16:02
317
原创 飞书Mail模块深度解析:邮件收发、草稿编辑与EML构建
草稿-发送分离:支持预览和修改Patch编辑:增量修改草稿,而非全量替换EML标准兼容:导出为RFC 5322标准格式引用链处理:Reply/Fwd自动处理主题前缀和原文引用。
2026-04-28 19:15:57
264
原创 实时事件订阅与WebSocket推送:飞书事件系统的CLI接入实战
WebSocket长连接:比轮询更高效、实时事件路由:根据event_type分发到不同处理器过滤机制:正则过滤减少无效处理断线重连:生产环境必须具备的容错能力。
2026-04-28 19:15:50
312
原创 元数据驱动与API命令自动生成:registry体系与飞书OAPI同步机制
文档即代码:元数据从平台文档自动生成动态注册:启动时根据元数据构建命令树自动同步:构建时自动拉取最新API定义类型安全:参数类型和位置自动校验。
2026-04-28 19:15:45
395
原创 从0到1构建AI Agent完整实战:Python集成飞书CLI的工程方案
通过20篇博客,我们完整解剖了lark-cli主题核心收获整体架构三层命令体系的设计哲学OAuth设备流RFC 8628的完整实现AI SkillsAgent操作手册的设计范式多身份切换user/bot/auto的决策链路Shortcuts声明式快捷命令框架Client框架分页、重试、安全头输出格式化JSON/Table/CSV/NDJSON多格式分页引擎全量聚合 vs 流式输出Factory模式依赖注入与测试友好架构错误处理结构化错误与权限增强安全设计。
2026-04-28 19:15:39
333
原创 Dify 源码分析报告
前后端分离:后端 API + 前端 Web 分离架构领域驱动设计:后端采用 DDD 架构,清晰的领域边界模块化设计:核心功能模块化,易于扩展容器化部署:使用 Docker 容器化部署,便于管理和扩展多服务架构:微服务化设计,各服务职责明确类别技术/框架版本后端框架Flask前端框架Next.js15.5.4前端库React19.1.1数据库缓存Redis任务队列Celery样式3.4.14状态管理Zustand4.5.2容器化Docker模块化设计。
2026-04-28 19:15:34
343
原创 快捷命令系统设计与实现:飞书Shortcuts的运行时框架剖析
Service string // 业务域:im/calendar/base/...Command string // 命令名:+messages-send/+agenda/...Description string // 帮助文本AuthTypes []string // 支持的身份:["user"]/["bot"]/["user","bot"]HasFormat bool // 是否支持--format和--jqFlags []Flag // 自定义参数定义。
2026-04-26 22:30:23
35
原创 多身份切换机制深度解析:user、bot与auto的底层实现
const (关键设计:Identity是一个string类型的别名,而非struct或int枚举。直接作为CLI flag的字符串值(“user”/“bot”/“auto”)零成本转换为string进行比对在JSON中直接序列化为可读字符串多身份切换不是简单的"传个参数",而是一个涉及配置解析、Token管理、降级策略、错误提示的系统工程。lark-cli优先级明确:显式 > 配置 > 自动,用户意图必须被尊重安全降级:不确定时选择bot而非报错,保证基础可用性状态透明。
2026-04-26 22:29:43
178
原创 AI Agent Skills开发完全指南:让大模型“学会“操作企业SaaS
在lark-cli的语境中,Skill是:一套结构化的文档和工具定义,教会AI Agent如何调用特定领域的CLI命令,完成特定的业务目标。Mermaid 渲染失败: Parse error on line 2:... LR A[用户意图"给研发群发图"] --> B[AI Ag图1:Skill在AI Agent调用链中的位置Skills是AI Agent与企业系统之间的"编译器"——将自然语言意图编译为精确的机器指令。lark-cli结构化优于自然语言。
2026-04-26 22:29:00
164
原创 AI Agent Skills开发完全指南:让大模型“学会“操作企业SaaS
在lark-cli的语境中,Skill是:一套结构化的文档和工具定义,教会AI Agent如何调用特定领域的CLI命令,完成特定的业务目标。Mermaid 渲染失败: Parse error on line 2:... LR A[用户意图"给研发群发图"] --> B[AI Ag图1:Skill在AI Agent调用链中的位置Skills是AI Agent与企业系统之间的"编译器"——将自然语言意图编译为精确的机器指令。lark-cli结构化优于自然语言。
2026-04-26 22:28:26
140
原创 飞书API认证与权限管理深度解析
本文全面讲解飞书开放平台的认证体系,深入分析User Access Token (UAT)、Tenant Access Token (TAT)、App Access Token的区别与应用场景。详细解读scope权限模型、多身份切换机制、权限检查与自动修复策略。通过丰富的Go源码分析和Python参考实现,帮助开发者构建安全、高效的认证系统。文章特别关注AI Agent场景下的认证优化,提供完整的故障排查指南和最佳实践建议。关键词:飞书认证;OAuth 2.0;权限管理;身份切换;Token刷新在现代企业应
2026-04-26 22:27:54
357
原创 CLI工具三层架构设计哲学:Shortcuts、API Commands与Raw API的取舍之道
三层架构的本质不是"技术复杂性",而是**“用户分层服务”**。lark-cli小白用户拿到的是打开即用的主力刀片(Shortcuts)进阶用户可以展开螺丝刀、锯子(API Commands)专家用户能直接取出内部工具进行极限操作(Raw API)而连接这三层的,是一套共享的认证、客户端、输出引擎。这意味着无论用户选择哪一层,他们享受到的安全保障、错误提示、格式化能力都是一致的。我的用户中最常见的操作是什么?能否做到零参数?当用户需要精确控制时,我是否提供了1:1的API映射?
2026-04-26 22:27:19
334
原创 AI Agent Skills开发完全指南
Skills的价值✅Agent友好: 结构化文档便于AI解析✅标准化: 统一的SKILL.md格式✅模块化: 独立的Skills易于维护和更新✅组合性: 可以组合多个Skills实现复杂工作流开发最佳实践✅ 遵循SKILL.md规范✅ 提供详细的references文档✅ 包含完整的示例代码✅ 列出所有可能的错误和解决方案✅ 强调安全注意事项文档质量要素✅ 清晰的Core Concepts说明✅ 可视化的Resource Relationships。
2026-04-26 22:26:44
642
原创 OAuth 2.0设备授权流完全实战:从RFC 8628到lark-cli实现
✅ 必须自动追加 offline_access 到scope✅ 必须实现 slow_down 的指数退避✅ 必须设置 max_poll_attempts 防止死循环✅ 必须支持 context/取消事件,让Agent可控✅ 网络错误应记录日志而非退出,增强鲁棒性✅ 优先使用 verification_uri_complete 提升体验✅ Token存储应包含 scope、obtained_at、expires_in✅ 定期检测 refresh_token 有效期,提前预警。
2026-04-26 22:26:13
396
原创 飞书CLI架构深度解析:如何为AI Agent打造200+命令的企业级命令行工具
我们构建一个智能会议助手Agent查询用户今日会议提取每个会议的参会者搜索参会者的邮箱发送会议纪要模板邮件通过深入剖析lark-cli的源码,我们可以提炼出以下可复用的工程范式。
2026-04-26 21:53:52
1038
网络优化Windows系统GitHub访问加速方案:通过IP绑定与DNS缓存刷新解决连接慢问题
2025-10-27
软件工程+Java微服务架构+社区养老系统+技术设计文档
2025-10-27
【大模型部署】基于vLLM与Ubuntu搭建:支持GPU加速的Qwen系列模型本地化推理系统配置 AI大模型部署+VLLM+Windows环境大模型服务搭建+实践指南
2025-10-26
【大模型部署】基于vLLM与Docker的WSL虚拟环境搭建:支持GPU加速的Qwen系列模型本地化推理系统配置
2025-10-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅