- 博客(289)
- 收藏
- 关注
原创 智能体(AI Agent)开发指南
《智能体开发指南》是一份基于国产大模型与火山引擎的入门教程,完整介绍从环境配置到实战案例的智能体开发全流程。内容涵盖大模型接入、MCP构建、RAG、ReAct等核心技术,以及Coze平台实践和LangChain应用。教程特别适合国内开发者,无需翻墙即可快速上手。通过12个由浅入深的章节,帮助读者掌握智能体开发核心技能,并附有本地部署框架deer-flow的实践指南。文档最后鼓励开发者持续学习,共同推动国产AI生态发展。
2025-09-03 08:50:52
616
原创 高精度车牌识别算法
一 车牌识别概述车牌识别属于OCR的一种,但它也有自己的特点。考虑到边缘设备部署,我们没有用lstm,仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛,常见的停车场收费系统,车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二 车牌识别本方案采用多标签识别的技术,同时设计的一个物件分支,判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.
2021-10-31 11:35:46
9861
5
原创 智能交通——车辆属性识别
一 场景说明在道路上,利用AI算法定位机动车的位置并识别车辆的属性,这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别,整个过程包含两个算法,基于yolov5的目标检测算法和基于多任务的属性识别算法。二 算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的,在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明,在此就不再赘述。如果读者感兴趣,可以参考我的博客:YOLOV5实战下面是我的测试代码,对yolo v.
2021-10-10 19:10:20
8831
16
原创 Clion中配置OpenCV环境(Ubuntu)
一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion,新建一个工程,工程名为XXX2. 打开工程的CMakeList,在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n
2021-07-09 14:51:31
2580
1
翻译 Clion安装教程(Linux)
一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急,后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出,source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.
2021-07-09 11:29:39
10774
5
原创 onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...
2021-04-29 20:53:44
5399
2
原创 通过MACE在Android手机上部署深度学习模型
1. MACE的环境搭建 参考我的博客:MACE的环境搭建——conda实现2. 构建项目 (1)下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...
2021-04-28 20:00:05
1564
5
原创 MACE的环境搭建——conda实现
1.MACE 主页 MACE 的github地址:https://github.com/XiaoMi/mace 小米官方的相关文档:https://mace.readthedocs.io/en/latest/ 对开发环境的要求,可以按照以下指令安装相关的包:2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境,我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...
2021-04-28 09:51:58
1285
原创 行人属性识别,PA100K
行人属性识别,即识别行人的多个特征,例如:性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别,主要用到的是multitask技术。
2021-02-07 09:49:40
7983
30
原创 YOLO V5 实战
YOLO V5开源了,还是pytorch版本的,对于pytorch使用者而言就非常友好,本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的,和大家一起分享。
2020-07-25 18:03:27
4671
5
原创 模型训练技巧——mixup
mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的,但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。这样做,mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。
2020-05-07 16:08:10
3190
2
原创 模型训练技巧——label smoothing
使用应用label smoothing在绝大多数分类任务上能提高模型的准确率,本文主要用pytorch实现label smoothing,使它能方便的应用到项目中。
2020-05-06 17:01:21
2658
2
原创 三分钟带你理解ROC曲线和PR曲线
Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能,所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。
2020-04-28 18:50:13
2999
原创 ResNeSt——ResNet最强改进版
张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增。是ResNet的最强改进版本,博主已经讲该网络应用与工程项目中。
2020-04-20 23:42:04
21574
39
原创 三分钟带你掌握Python中的多进程和多线程
多进程和多线程编程对于代码的并发执行,提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程,并将其封装成类,成为好用的工具,方便调用。
2020-04-18 15:11:40
1078
1
原创 Codex++ 来了!让 OpenAI Codex 更好用的增强神器,插件解锁+中转注入全搞定
Codex++ 是 OpenAI Codex App 的增强工具,通过外部注入方式提供多项实用功能,无需修改原始文件。主要特点包括:解锁插件入口、支持中转 API 注入、新增会话删除功能、Markdown 导出、项目移动等。工具采用双入口设计(静默启动器+Tauri管理面板),通过 Chromium DevTools Protocol 实现安全注入,支持多配置切换和自动更新。适用于 Windows 和 macOS 平台,特别适合需要灵活使用中转 API 或增强 Codex 功能的开发者。项目地址:https
2026-06-01 15:00:19
627
原创 不用 Visio 不用 draw.io!Architecture Diagram Generato用 Claude 一句话生成专业架构图,暗黑主题太酷了
这篇文章介绍了一个名为Architecture Diagram Generator的开源工具,它能通过自然语言描述自动生成专业架构图,主要特点包括: 一键生成:只需用自然语言描述系统架构,Claude AI即可自动生成专业级暗黑主题架构图 便捷导出:支持导出PNG/PDF格式,生成的独立HTML文件无需额外依赖 智能设计:采用语义配色系统(前端蓝/后端绿/数据库紫等)、智能布局和等宽字体 高效迭代:支持对话式修改,无需重新绘制 多场景适用:支持Web应用、微服务、云服务等多种架构类型 该工具基于Claude
2026-06-01 14:43:27
199
原创 太强了!OpenMontage:12 条管线、52 个工具、500+ Agent 技能,把 AI 编码助手变成视频工作室
OpenMontage 是一个革命性的 AI 视频创作框架,能将编码助手转变为全功能视频工作室。它通过 12 条生产线、52 个专业工具和 500+ Agent 技能,实现从调研到成片的端到端自动化制作。相比当前 AI 视频工具的局限性(短片段、无故事性、缺乏参考等),OpenMontage 支持参考视频驱动、真实素材剪辑、内置网络调研和成本治理等核心能力。系统采用独特的 Agent-First 架构,以 AI 编码助手为编排器,遵循 7 阶段标准化流水线(调研→提案→剧本→分镜→素材→剪辑→合成),支持无
2026-06-01 14:28:26
304
原创 受够了 AI 生成的丑界面?Taste Skill 让你的 AI 终于有了“审美“
文章摘要 Taste Skill 是一款专为AI编码助手设计的技能插件,旨在解决AI生成界面普遍存在的"AI审美"问题(如紫色渐变、居中布局等)。它提供三旋钮系统(设计变化度/动效强度/视觉密度)精确控制输出风格,内置反AI味规则清单禁止常见模板化设计,并支持自动匹配主流设计系统(Material/Fluent等)。核心功能包括智能需求推断、设计系统映射、暗色模式支持、组件库标准化和发货前检查清单。安装简单,支持10种风格变体,可显著提升AI生成界面的专业性和独特性。项目开源,适用于React/Vue/Sv
2026-06-01 12:55:36
375
原创 开源炸裂!输入网址秒出 React 代码,Open Lovable 让你 10 秒克隆任意网站
摘要: Open Lovable 是一款开源工具,输入网址即可自动生成 React 代码,实现网站秒级克隆。支持 8 种 UI 风格切换(如玻璃拟态、暗黑模式等),集成 GPT-5、Claude 等主流大模型,通过 Firecrawl 爬取网页内容并结构化,AI 生成可运行的 React 项目。还提供品牌风格扩展、实时沙箱预览等功能,适合快速原型设计、学习或竞品分析。需配置 API 密钥,依赖 Firecrawl 爬虫服务,技术栈基于 Next.js 15 和 Tailwind。 核心亮点: 🔥 输入 U
2026-06-01 09:18:34
391
原创 太强了!VoltAgent:用 TypeScript 打造生产级 AI Agent 的全栈开源框架
VoltAgent 是一个全栈开源的 TypeScript AI Agent 开发框架,提供从开发到运营的一站式解决方案。核心功能包括: 完整运行时 - 集成记忆管理、RAG检索、安全护栏、多工具调用等核心能力 工作流引擎 - 声明式多步骤自动化,支持人机协同(Human-in-the-Loop) Supervisor模式 - 主Agent协调多个专业子Agent的团队协作 生产级特性 - 持久化记忆、断线恢复、语音交互、内容安全护栏等 可视化运维 - 通过VoltOps Console实现实时监控、性能分
2026-06-01 09:10:02
214
原创 20 万行代码看一眼就懂!Understand Anything这个开源知识图谱插件让 AI Agent 帮你秒懂任何代码库——15 个平台一键安装
Understand Anything 是一个Claude Code 插件,用多 Agent 流水线分析项目,构建知识图谱,提供交互式可视化 Dashboard 来探索代码库。把任何代码库/知识库/文档变成可交互的知识图谱——Tree-sitter 确定性解析 + LLM 语义理解双引擎,7 Agent 流水线,15 平台一键安装,增量更新,团队共享。📜 开源协议:MIT License👤 作者:Lum1104免费(MIT 开源)是目前最好的代码库知识图谱工具核心优势说明🕸️三大视图。
2026-05-29 14:13:36
678
原创 AAnthropic 团队都改用 HTML 写文档了!HTML Anything这个开源项目让 AI gent 一键生成 75 种精美排版——微信/X/知乎一键导出
Anthropic团队宣布改用HTML撰写文档,认为HTML比Markdown更利于读者阅读。为此,开源项目HTML Anything应运而生,它能通过AI Agent将Markdown/CSV/JSON等格式内容一键转换为精美排版的单文件HTML,支持75种模板和9种输出形态(如文章、幻灯片、海报等)。该项目无需API密钥,自动检测8种编程助手,可一键导出至微信/X/知乎等平台,由Open Design团队开发并开源。核心优势包括流式渲染、沙箱预览和格式自动检测,30秒即可快速上手,适合需要高效内容发布的
2026-05-29 13:14:03
354
原创 不用每月花 29 刀!OpenScreen这个开源屏幕录制神器让你 0 成本做出 Screen Studio 级产品演示视频
OpenScreen是一款免费开源的屏幕录制工具,可作为Screen Studio的平替方案。它具备录制窗口/区域/全屏、麦克风+系统音频采集、摄像头画中画等核心功能,支持自动缩放+运动模糊特效,提供多种精美背景模板,能通过模糊效果遮挡敏感信息,还具有光标高亮、文字/箭头标注、时间线剪辑等实用特性。支持导出MP4/GIF多种格式和比例,跨平台兼容macOS/Windows/Linux,采用MIT开源协议,个人和商业用途均可免费使用。相比Screen Studio每月29美元的费用,OpenScreen以零成
2026-05-29 12:55:11
347
原创 GreenSock 官方出手了!8 个 AI Skill 让你的 Agent 秒变 GSAP 动画大师——核心 API、ScrollTrigger、Flip、SplitText 全免费
文章摘要 GreenSock 官方发布了 8 个 AI Skill,帮助开发者通过 AI Agent 正确使用 GSAP 动画库。这些技能包覆盖核心 API、Timeline 编排、ScrollTrigger 滚动动画、Flip 布局动画等关键功能,解决了 AI 生成代码中常见的过时 API、误用 CSS 动画等问题。特别值得注意的是,自 Webflow 收购 GSAP 后,所有插件(包括之前付费的 SplitText、MorphSVG)现已完全免费,无需认证令牌。开发者只需 npm install gsa
2026-05-29 11:29:19
567
原创 不用注册、不用联网!Oh My PPT这个开源 AI PPT 工具一句话出整套幻灯片,30+ 风格任意选还能对话改
文章摘要 Oh My PPT 是一款开源本地化 AI PPT 工具,支持一句话生成完整幻灯片,30+风格可选,无需注册和联网。核心特性包括:四种创作方式(对话/文档/模板/图片识别)、可视化编辑、动画系统、字体管理、演讲稿生成等。采用HTML格式,支持导出PDF/PNG/PPTX,还能打包成单文件。基于Electron+React+TypeScript开发,MIT协议开源,保障数据隐私,适合商务汇报、教学演示等场景。解决了传统AI PPT工具格式固定、修改困难的问题,提供更灵活的本地化编辑体验。 (149字
2026-05-29 11:06:58
253
原创 阿里开源 Agent 框架大升级!AgentScope 2.0 来了——事件流、权限系统、沙箱工作区、人机协作一个不少
阿里开源Agent框架AgentScope 2.0发布,带来六大核心升级: 事件流系统:支持类型化事件流,实现实时监控与流式UI 三层权限引擎:内置危险路径保护,提供5种权限模式,Deny规则无法绕过 沙箱工作区:支持本地/Docker/E2B一键切换,增强隔离性 人机协作:关键操作需人工确认,支持暂停/恢复机制 高效执行:工具并发调用+自动上下文压缩,优化长对话处理 Agent服务:内置多租户支持,开箱即用的REST+SSE服务 该框架采用"充分发挥模型能力"的设计哲学,不限制Agent工作流范式,5分钟
2026-05-29 10:49:53
984
原创 给 AI 装上“超级能力“!这个开源项目让 Claude/Codex/Gemini 自动走完设计→计划→编码→审查全流程
Superpowers项目为AI编程助手引入了一套强制性的软件开发方法论,通过14个核心技能重构AI的编码行为。该项目解决了AI直接写代码导致的四大问题:急于动手、不写测试、过度设计和不自我审查。核心创新是"子Agent驱动开发"模式,将任务拆分为2-5分钟的小单元,每个任务由独立子Agent完成并经过两阶段审查。7步工作流包括头脑风暴、Git隔离、任务拆分、TDD编码、代码审查等完整流程,使Claude等AI能持续工作2小时不偏离计划。这套方法论不提升AI能力,而是规范其行为,让AI编程从"保姆式"转变为
2026-05-23 12:06:57
372
原创 OpenAI 官方出品!不再盯着 AI 写代码,让 Agent 自己领任务干活——Symphony 彻底改变人机协作模式
OpenAI推出的Symphony项目彻底改变了人机协作模式,让AI Agent自主完成编码任务。工程师只需审查结果,不再需要手动操作AI。该项目源自OpenAI内部实验:3名工程师5个月内通过Codex生成了100万行代码。Symphony核心架构包含8大组件,通过WORKFLOW.md文件定义工作流程,实现任务自动领取、独立工作区创建、代码编写和PR提交的全流程自动化。这一创新将工程师角色从"AI操作员"转变为工作管理者,大幅提升开发效率。
2026-05-23 11:55:16
319
原创 复制一个 Markdown 文件,AI 就能还原 Apple/Stripe/SpaceX 的 UI!73 个品牌设计系统免费白嫖
这篇文章介绍了Awesome DESIGN.md项目,这是一个包含73个全球顶级品牌设计系统的开源资源库。该项目通过简单的Markdown文件格式,为AI提供精确的设计规范,解决AI生成UI时"差不多"的问题。 核心亮点包括: 采用Google Stitch提出的DESIGN.md概念,纯文本格式便于AI直接读取 覆盖AI平台、开发者工具、金融科技、电商零售等多个领域的知名品牌 每个DESIGN.md文件包含完整的视觉特征:颜色、字体、间距、组件等设计规范 与传统设计系统相比,无需转换格式,任何文本编辑器都
2026-05-23 11:41:32
341
原创 被马斯克点赞的 AI Agent 框架!5 行代码部署 24/7 自动化工作团队,PraisonAI 把多 Agent 开发降维打击了
入门简单,做起来难。写一个单 Agent 的 Hello World 只需 3 行代码,但一进入多 Agent 协作、工具集成、生产部署,代码量就指数级膨胀。PraisonAI5 行代码,从单 Agent 到整支 AI 工作团队。更让人惊叹的是,这个项目被——Musk 发推提到 “Grok 3 customer support”,引用的正是 PraisonAI 的教程。5 行代码部署 24/7 AI 自动化团队——研究、规划、编码、执行,自带记忆和 RAG,支持 100+ LLM。📜 开源协议:MIT。
2026-05-23 11:28:35
431
原创 Beautiful HTML Templates:34 套精心打磨的 HTML 幻灯片模板,一行命令让 AI Agent 自动帮你做出惊艳 PPT!
这篇文章介绍了一个创新的HTML幻灯片模板库"Beautiful HTML Templates",包含34套精心设计的模板,通过AI Agent实现智能匹配和自动排版。主要特点包括: 采用Tone-First Matching理念,通过8维元数据标签(情感、场景、风格等)智能匹配模板 模板分为四大风格:编辑杂志风、温暖自然风、活泼趣味风和专业商务风 每套模板包含完整的前端代码和元数据,支持AI Agent自动克隆和内容替换 独特的"感觉优先"设计哲学,打破传统按行业分类的模式 适用于各类演示场景,从商务报告
2026-05-23 11:13:38
829
原创 30K+ Star 的视频剪辑神器!不重编码、不损画质、秒级裁剪,LosslessCut 把 FFmpeg 玩出了花
2 小时的素材里,只有几分钟有用。用 Premiere 导入等半天,导出还要重编码——画质下降不说,时间更是浪费。就是为这个痛点而生的。它是"无损视频/音频编辑的瑞士军刀"——一个跨平台的 FFmpeg GUI,专注于极速、无损的音视频操作。核心能力是无损裁剪和切割,让你从大文件中快速提取精彩片段,丢弃几十 GB 的废片,不做慢速重编码,不损失任何画质。不重编码的视频剪辑——几秒裁完,画质一丝不减。30,000+(视频工具类顶流)📜 开源协议:MIT(永久免费开源)
2026-05-23 10:58:37
477
原创 不会 CSS 也能做出惊艳 PPT!Frontend Slides这个开源 Claude Code 技能让 AI 帮你生成 12 种风格演示文稿,告别千篇一律的紫渐变
做演示文稿这件事,长期以来只有两条路:要么用 PowerPoint/Keynote 拖拽排版,要么用 reveal.js/Slidev 写代码。前者费时费力还容易做得丑,后者门槛高且调试痛苦。给出了第三条路——让 AI 帮你做,你只需要"看"和"选"。它是一个 Claude Code 技能(Skill),专门用来创建动画丰富的 HTML 演示文稿。最妙的是它的""理念:不需要你用语言描述"我想要什么风格",而是直接生成 3 种视觉预览让你对比选择——看一眼胜过千言万语。
2026-05-22 15:58:50
477
原创 20 年磨一剑的开源视频编辑器!免费、跨平台、4K/8K、10-bit 色彩,Shotcut 凭什么和 Premiere 正面硬刚?
Shotcut是一款免费开源的专业级视频编辑器,经过20年持续迭代已发展成熟。核心优势包括:永久免费开源、真正跨平台支持、无需导入直接编辑、专业监看支持和4K/8K分辨率处理能力。功能方面提供多轨道时间线编辑、丰富的视频滤镜(含10-bit色彩管线)、专业音频处理、语音转文字、字幕工具等。基于MLT框架和FFmpeg等技术栈,支持多种硬件加速。最新v26.4版本新增GPU加速语音转文字、任务栏进度显示和LUT文件支持等功能。作为一款功能全面且无商业限制的开源软件,Shotcut为视频创作者提供了专业级Pre
2026-05-22 15:47:17
175
原创 6 万字、2 年迭代、一人企业方法论 :不融资、不内卷,一个人也能赚到钱的完整路线图
《一人企业方法论》是一套面向独立开发者和创业者的6万字实践指南,提出了不融资、不内卷的个人创业路径。核心内容包括四大模块:定义一人企业(区别于个体户和创业公司)、规划策略(聚焦小众刚需赛道)、业务构建(从副业验证开始)和基础设施搭建(自建可控技术栈)。最新2.1版本新增了AI Agent技能集,提供9个自动化工具辅助商业分析、产品设计和运营复盘。该方法论强调通过认知差和资产杠杆实现"小而美"的商业模式,特别适合数字产品、在线服务等轻资产领域,帮助个人以极低成本启动可持续的被动收入业务。
2026-05-22 14:55:59
390
原创 13 万行代码,开源干翻剪映!OpenReel浏览器里做专业视频剪辑,4K 不卡、视频不上传、永久免费
剪映越来越贵、Premiere 太重、DaVinci 太专业、在线编辑器要上传视频到云端。你想要的其实很简单——一个够专业、够快、够安全、不要钱的剪辑工具。就是这个答案。它是开源界的剪映替代品,一个完全在浏览器中运行的专业视频编辑器,不需要安装任何软件,不需要上传视频,不需要付费订阅。浏览器里跑的 DaVinci Resolve——开源、免费、隐私、GPU 加速。📜 开源协议:MIT📊 代码规模:130,000+ 行。
2026-05-22 14:43:53
464
原创 baoyu-skills:24 个 AI Agent 技能包一键安装!小红书配图、信息图、SVG 架构图、PPT 幻灯片全搞定
AI视觉创作工具包baoyu-skills为AI Agent提供24种视觉创作技能,涵盖内容生成、AI图片创作和实用工具三大类。核心功能包括:一键生成小红书卡片(12种风格×6种布局)、专业信息图(20种布局×17种风格)、SVG架构图(5种图表类型)以及PPT幻灯片等。该工具包支持Node.js环境,采用MIT-0开源协议,能显著提升AI在视觉内容创作方面的能力,实现从文案到出图的全流程自动化。
2026-05-22 14:19:07
559
原创 一行命令让 AI 掌控 Word/Excel/PPT!OfficeCLI这个开源项目把 Office 自动化玩出了新高度
OfficeCLI 是一个革命性的开源工具,专为AI Agent设计的Office自动化解决方案。它通过单一命令行接口实现了对Word、Excel和PPT的完整控制,无需安装Office软件或编写复杂代码。该项目采用.NET技术栈,提供创建、读取、修改文档等核心功能,支持实时预览和结构化JSON输出。相比传统python-pptx等库需要数十行代码的操作,OfficeCLI只需一行命令即可完成,极大简化了AI操作Office文档的流程。其独特的内置渲染引擎让AI能"看到"文档效果,解决了传统自动化工具"盲操
2026-05-22 13:02:08
534
人工智能基于LangGraph与MCP协议的智能体开发技术指南:国产大模型驱动的AI Agent构建与RAG系统实现
2025-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅