- 博客(261)
- 资源 (3)
- 收藏
- 关注
原创 智能体(AI Agent)开发指南
《智能体开发指南》是一份基于国产大模型与火山引擎的入门教程,完整介绍从环境配置到实战案例的智能体开发全流程。内容涵盖大模型接入、MCP构建、RAG、ReAct等核心技术,以及Coze平台实践和LangChain应用。教程特别适合国内开发者,无需翻墙即可快速上手。通过12个由浅入深的章节,帮助读者掌握智能体开发核心技能,并附有本地部署框架deer-flow的实践指南。文档最后鼓励开发者持续学习,共同推动国产AI生态发展。
2025-09-03 08:50:52
580
原创 高精度车牌识别算法
一 车牌识别概述车牌识别属于OCR的一种,但它也有自己的特点。考虑到边缘设备部署,我们没有用lstm,仅用普通的卷积层便实现了高精度的车牌识别方案。车牌识别的应用场景也十分广泛,常见的停车场收费系统,车牌识别算法也是只能交通算法中的基础算法和最为重要的算法。场景识别准确率道路卡口场景99.6%小角度场景99.0%大角度车牌场景98.2%二 车牌识别本方案采用多标签识别的技术,同时设计的一个物件分支,判断输入是否为车牌。其中车牌全部识别正确的准确率为99.6.
2021-10-31 11:35:46
9843
5
原创 智能交通——车辆属性识别
一 场景说明在道路上,利用AI算法定位机动车的位置并识别车辆的属性,这些信息对于交警来说是非常重要的。下面我们将对道路上的车辆进行检测和属性识别,整个过程包含两个算法,基于yolov5的目标检测算法和基于多任务的属性识别算法。二 算法详解1. 基于yolov5的目标检测算法个人感觉yolov5算法还是非常nice的,在实际项目和比赛中经常用到。由于一年前我就写过几篇博客对yolov5进行了说明,在此就不再赘述。如果读者感兴趣,可以参考我的博客:YOLOV5实战下面是我的测试代码,对yolo v.
2021-10-10 19:10:20
8806
16
原创 Clion中配置OpenCV环境(Ubuntu)
一. 在Ubuntu环境下安装破解Clion请看我之前的教程Clion安装与破解教程(Linux)二. 在Ubuntu环境下安装OpenCV(c++版本)请看我之前的教程ubuntu 安装 opencv 的 c++版本三. Clion的OpenCV环境配置1. 打开Clion,新建一个工程,工程名为XXX2. 打开工程的CMakeList,在末尾添加以下代码find_package(OpenCV REQUIRED)target_link_libraries(<project n
2021-07-09 14:51:31
2568
1
翻译 Clion安装教程(Linux)
一. Clion下载与安装1. 从官网下载Clion安装包并解压。默认Clion可以免费使用30天(不用着急,后面有破解教程)。2. 配置环境变量vim ~/.bashrc#添加alias clion=/home/<用户名>/<安装路径>/clion-2021.1.1/bin/clion.sh修改后退出,source使修改生效source ~/.bashrc3. 启动打开终端输入clion即可启动二. Clion破解1. 启动软件, 将博主提供的2.1.9.
2021-07-09 11:29:39
10755
5
原创 onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...
2021-04-29 20:53:44
5378
2
原创 通过MACE在Android手机上部署深度学习模型
1. MACE的环境搭建 参考我的博客:MACE的环境搭建——conda实现2. 构建项目 (1)下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...
2021-04-28 20:00:05
1538
5
原创 MACE的环境搭建——conda实现
1.MACE 主页 MACE 的github地址:https://github.com/XiaoMi/mace 小米官方的相关文档:https://mace.readthedocs.io/en/latest/ 对开发环境的要求,可以按照以下指令安装相关的包:2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境,我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...
2021-04-28 09:51:58
1252
原创 行人属性识别,PA100K
行人属性识别,即识别行人的多个特征,例如:性别、年龄、戴帽子、戴眼镜等。本文将带你学习行人属性识别,主要用到的是multitask技术。
2021-02-07 09:49:40
7944
30
原创 YOLO V5 实战
YOLO V5开源了,还是pytorch版本的,对于pytorch使用者而言就非常友好,本文作者用车辆数据集跑了一下yolo v5, 效果还是非常不错的,和大家一起分享。
2020-07-25 18:03:27
4661
5
原创 模型训练技巧——mixup
mixup, 用几行代码就能提高模型的识别精度。大型深度神经网络是非常强大的,但其损耗巨大的内存以及对对抗样本的敏感性一直不太理想。作者提出的mixup是一个简单地减缓两种问题的方案。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。这样做,mixup规范神经网络增强了训练样本之间的线性表达。数据集上进行试验,研究结果表明,mixup可以改进当前最先进的神经网络架构的泛化能力。
2020-05-07 16:08:10
3168
2
原创 模型训练技巧——label smoothing
使用应用label smoothing在绝大多数分类任务上能提高模型的准确率,本文主要用pytorch实现label smoothing,使它能方便的应用到项目中。
2020-05-06 17:01:21
2641
2
原创 三分钟带你理解ROC曲线和PR曲线
Roc曲线和PR曲线常被用来在二分类问题中评估一个分类器的性能,所以在机器学习中搞清楚两种曲线的原理及其区别与实现是非常基础也是非常重要的。
2020-04-28 18:50:13
2970
原创 ResNeSt——ResNet最强改进版
张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增。是ResNet的最强改进版本,博主已经讲该网络应用与工程项目中。
2020-04-20 23:42:04
21540
39
原创 三分钟带你掌握Python中的多进程和多线程
多进程和多线程编程对于代码的并发执行,提升代码效率和缩短运行时间至关重要。本文介绍如何使用python的multiprocess和threading模块进行多线程和多进程编程,并将其封装成类,成为好用的工具,方便调用。
2020-04-18 15:11:40
1066
1
原创 太强了!NarratoAI:一键 AI 影视解说+自动剪辑,10分钟视频成本仅0.1元
NarratoAI 是目前 GitHub 上少有的AI 影视解说+自动化剪辑一站式工具,它将视觉理解、文案生成、TTS 配音、自动剪辑四大环节串联成完整流水线,让影视解说从"手工活"变成"流水线"。对于想要快速批量产出影视解说内容的朋友来说,NarratoAI 绝对值得一试。搭配硅基流动等低成本 API 平台,一条 10 分钟的解说视频成本可能还不到一毛钱。🔥推荐指数:⭐⭐⭐⭐(4/5)扣一分是因为自动剪辑精细度还有提升空间,但整体完成度和更新节奏在同类项目中表现优秀。
2026-05-07 09:08:47
413
原创 终于有人认真做 AI 生成 PPT 了!输出的不是图片,是真正可编辑的 PPTX
PPT Master 是目前唯一一个认真做"AI 生成真正可编辑 PPT"的开源项目。它的核心理念很简单——打不开编辑的文件不配叫 PPT。在这个理念下,它用 DrawingML 原生输出、模板复刻、原生动画、旁白配音、语音克隆、视频导出一整套能力,覆盖了从内容生成到最终交付的完整链路。加上开源免费、数据本地、无平台锁定、模型任选的设计哲学,它不只是又一个 AI PPT 工具,而是一个真正站在用户立场上的生产力方案。🌟推荐指数:⭐⭐⭐⭐⭐。
2026-05-06 19:33:33
429
原创 告别手动画图!用自然语言秒出出版级技术架构图,7 种风格任意选
告别手动画图!这个开源项目让你用自然语言描述系统,即可自动生成7种风格的高清技术架构图(SVG+PNG)。支持14种UML图类型,特别优化AI/Agent领域,提供语义形状和箭头系统,内置40+产品图标。相比Mermaid和draw.io,它能实现"描述即出图",无需学习语法或手动调整样式,大幅提升架构图制作效率。安装简单,支持中英文输入,是技术文档、博客和演示文稿的理想工具。
2026-05-06 19:27:21
380
原创 太方便了!一个 App 统管 15+ AI 编程工具的 Skills,再也不用来回折腾了
摘要: Skills Manager 是一款轻量级桌面应用,帮助开发者统一管理 15+ AI 编程工具(如 Cursor、Claude Code、Copilot 等)的 Skills。通过集中存储、场景切换和批量同步功能,解决多工具 Skills 配置混乱的问题。支持从 Git/本地/市场安装 Skills,提供 AI 搜索、标签分类、Git 备份及项目级管理,实现跨工具、跨设备的无缝工作流切换。基于 Tauri 2 + Rust 构建,具有高性能和低资源占用特点,适合团队协作及多场景开发者使用。 核心功能
2026-05-06 17:39:49
369
原创 GitHub Trending 第一!一个周末精通 Claude Code,这个开源指南让我少走了半年弯路
《GitHub热门第一!Claude Code速成指南》介绍了一个开源教程项目,该项目通过可视化图表和可复制模板,帮助用户快速掌握Claude Code。教程包含10大模块,涵盖斜杠命令、Hook脚本等核心功能,提供渐进式学习路径和自测评估。项目采用MIT协议,支持多语言和离线阅读,15分钟即可上手使用。相比官方文档,该指南更注重功能组合和实战应用,适合不同水平的用户。目前项目保持与Claude Code同步更新,但仅聚焦于该工具本身。
2026-05-06 17:23:16
526
原创 太强了!输入提示词就能批量生成短视频,Short Video Factory这个开源神器让你效率翻10倍!
【短视频工厂:AI自动化短视频生成神器】这个开源项目通过AI技术实现短视频全流程自动化生产,用户只需输入提示词和素材,即可自动完成文案生成、语音合成、视频剪辑和字幕添加。支持跨平台运行(Windows/macOS/Linux),兼容主流AI接口,内置EdgeTTS语音和FFmpeg视频处理,能批量生成高质量短视频。特别适合自媒体运营、电商从业者快速制作营销内容,具有本地运行、数据安全、操作简单等优势,虽然字幕样式和语音选择还有提升空间,但已能显著提升短视频生产效率。
2026-05-06 16:45:33
348
原创 PPT 一键转视频!slides2video这个开源工具让豆包 TTS 自动配音,再也不用熬夜录旁白了
slides2video 是一款开源工具,可将 PPT 幻灯片一键转换为带 AI 旁白的视频。它使用豆包 TTS 语音合成 API,支持 100+ 音色,包括普通话、方言、英语及 IP 仿音。工具支持 HTML 幻灯片或 PNG 图片输入,通过四阶段流水线处理,独创 PCM 无缝拼接技术消除音频间隙。安装简单,5 分钟即可上手,支持断点续跑和自定义音色,是制作演示视频的高效解决方案。
2026-04-30 08:38:42
498
原创 pi-mono太强了!这个开源项目把 AI 编程 Agent 全家桶打包了——7 个工具从 LLM API 到终端 UI 一把梭
pi-mono是一个开源的一站式AI Agent工具包,由libGDX作者开发。它采用Monorepo架构,包含7个紧密协作的包:统一LLM API调用、Agent运行时管理、编码Agent CLI、终端UI库、Web组件、Slack机器人和GPU Pod管理。核心亮点包括支持20+LLM供应商的统一接口、可扩展的插件系统、会话分支管理、Token成本追踪等。通过简洁的CLI工具和TypeScript扩展,实现了高度灵活的AI编程助手功能,同时避免了过度复杂的架构设计。
2026-04-30 08:00:03
508
原创 谁还在用 PowerPoint?这个「电子杂志风」开源 PPT 技能,让我做演讲 slides 像排一本 Monocle
摘要:开源工具「guizang-ppt-skill」颠覆传统PPT制作方式,提供5套主题色、10种杂志风布局和WebGL流体背景,可一键生成单文件HTML横向翻页演示。该工具融合Monocle杂志美学与电子墨水风格,内置叙事弧模板和5种动效系统,强调"克制优于炫技"的设计哲学。支持AI配图流程,无需服务器,浏览器直接打开即可演示,特别适合技术分享、产品发布等需要高设计感的场景。(149字)
2026-04-29 21:14:28
410
原创 太强了!这个开源项目让我告别 PowerPoint,36 套主题一键切换,还自带演讲者模式!
《告别PPT!开源HTML PPT Studio:36套主题一键切换+演讲者模式》 GitHub开源项目HTML PPT Studio为厌倦传统PPT的用户提供了全新解决方案。该项目基于纯静态HTML/CSS/JS构建,具有36套专业主题、31种布局和47种动画效果,支持按S键调出包含当前页/下一页预览、逐字稿和计时器的演讲者模式。 核心特点包括:Token驱动的主题切换系统、iframe实现的像素级精确预览、自动管理的Canvas特效,以及无需构建的纯静态架构。特别适合技术分享、产品发布、学术报告等场景,
2026-04-29 20:55:59
958
原创 太强了!用自然语言对话就能画架构图,这个开源项目让画图效率提升 10 倍!
Next AI Draw.io 把"画图"这件事从拖拽操作变成了对话交互——你描述需求,AI 生成图表。对于经常需要画架构图、流程图、系统拓扑的开发者和架构师来说,这工具能节省大量时间。🏗️ 需要快速出架构图的开发者和架构师📊 频繁制作技术文档图表的技术写作者🤖 想在 AI 工作流中集成图表生成的 MCP 用户🎓 需要可视化模型/流程的学生和研究者推荐指数:⭐⭐⭐⭐☆(4.5/5)项目还在持续迭代中,当前版本 v0.4.15,生态在不断完善。如果你对 AI + 可视化感兴趣,值得一试!
2026-04-26 21:14:39
383
原创 肝了 3 天!我终于找到了让 AI 编程助手“开天眼“的秘密武器
《GitNexus:让AI编程助手拥有代码"上帝视角"》 核心亮点: 将代码库转化为知识图谱,为AI编程工具提供架构级理解能力 16个MCP工具实现精准影响分析(如一行代码改动影响47个函数) 5分钟快速部署:一条命令完成代码索引、技能安装和配置 支持14种主流编程语言的深度解析和关系追踪 提供可视化Web界面和多种编辑器集成方案 技术突破: 预计算关系智能取代传统Graph RAG的低效查询 六阶段索引流水线实现深度代码分析 跨仓库依赖追踪和多语言支持 适用场景:代码重构、影响评估、P
2026-04-26 20:42:35
536
原创 HeyGen 开源炸裂!HyperFrames:用 HTML 写视频,AI Agent 的下一代渲染框架
HeyGen开源HyperFrames框架,用HTML+GSAP实现AI视频创作,无需React或打包工具。关键特性包括:HTML原生创作、AI Agent友好、确定性渲染、50+预制组件,采用Apache 2.0许可完全免费。相比Remotion,HyperFrames更轻量,支持GSAP动画和直接HTML/CSS编写,适合自动化视频生成场景。核心原理是将HTML元素通过data属性映射到时间线,利用Puppeteer+FFmpeg实现帧精准渲染。虽然分布式渲染功能尚未完善,但其零学习成本和AI友好特性使
2026-04-26 17:41:28
1654
原创 video-use:用「对话」剪辑视频——browser-use 团队开源的 AI 视频编辑神器
不是让 AI 替代剪辑师,而是让 AI 成为剪辑师的智能助手。双层读取系统——让 LLM 高效"阅读"视频而非盲目处理像素12 条硬性规则——确保技术正确性,避免静默失败对话驱动工作流——策略确认 → 执行 → 自评估 → 迭代专业级工艺——词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色对于需要批量处理访谈、教程、产品视频的创作者来说,这是一个能显著提效的工具。它不是 Premiere Pro 的替代品,而是和 Premiere Pro 互补的 AI 预处理层。
2026-04-24 09:07:08
636
原创 MoneyPrinterTurbo:一个关键词就能全自动生成短视频的开源神器!
MoneyPrinterTurbo 是一个目标非常明确的垂直工具——解决"一个人做大量短视频"的效率问题。它不追求专业剪辑的精细控制,而是把"输入主题 → 输出视频"这条链路做到了极致自动化。对于需要批量生产内容的创作者来说,这是一个真正能提效的生产力工具。推荐指数:⭐⭐⭐⭐需要批量生成短视频的内容创作者和运营团队想快速验证"一个想法 × 多种模板"的内容矩阵打法有一定动手能力、愿意配置 API 的技术型创作者完全不懂技术、想要开箱即用的纯小白(需要配置 API Key)
2026-04-20 21:07:22
427
原创 开口就能剪视频!FireRed-OpenStoryline:一个用「对话」代替「操作」的 AI 视频创作引擎
FireRed-OpenStoryline是一款革命性的AI视频创作引擎,通过自然语言对话实现全流程视频制作。用户只需描述需求,系统就能自动完成素材搜索、文案生成、音乐匹配、字幕合成等操作。核心功能包括智能素材搜索、文案生成、BGM匹配、对话式精修和技能沉淀。采用MCP协议架构,支持Docker、Conda等多种部署方式,可与OpenClaw等AI Agent生态无缝集成。最新版本新增AI转场生成和ASR口播粗剪功能,显著提升视频创作效率。该工具特别适合非专业用户快速制作高质量视频内容,代表了下一代&quo
2026-04-20 20:48:13
472
原创 AutoClip:一个把 B站/YouTube 视频自动切成精彩片段的开源工具!
AutoClip是一个基于AI的智能视频切片工具,能自动从B站/YouTube视频中识别精彩片段并生成剪辑。它采用FastAPI+React技术栈,结合通义千问大模型分析视频内容,通过AI评分系统识别高光时刻,使用FFmpeg完成自动切割。该工具支持Docker一键部署,提供完整流水线处理:下载→分析→切片→合集。主要面向视频创作者,解决手动剪辑痛点,显著提升内容生产效率。目前支持YouTube/B站/本地文件,具备多平台下载、AI内容分析、自动切片等核心功能,部分功能如B站上传仍在开发中。
2026-04-20 20:31:23
667
原创 Remotion:用 React 写视频?这个 20k+ Star 的开源框架让程序员彻底告别 After Effects!
摘要: Remotion 是一个基于 React 的开源框架(20k+ Star),允许开发者用代码生成视频。通过 React 组件、CSS/Canvas 等技术渲染每一帧,支持参数化模板和云端渲染(AWS Lambda)。核心优势包括:前端技术栈零门槛、组件化复用、动态数据驱动、低成本云端渲染。适用于个性化视频、数据可视化、社交媒体内容等场景,但复杂特效处理能力可能弱于专业工具。5 行代码即可创建基础视频,为开发者提供了高效的程序化视频生成方案。
2026-04-20 20:14:20
1238
原创 The Agency:GitHub 上最全的 AI Agent 专家团队!50+ 角色任你召唤,专治 AI “太水了“
GitHub神级AI专家团队The Agency:50+专业Agent角色库,一键召唤各领域AI专家(前端/后端/安全/设计等),提供深度专长、可交付代码和行业标准解决方案。覆盖工程/设计/运营全领域,支持9大AI工具,解决AI助手"泛而不精"痛点。安装简单,专业级输出质量,开发者必备生产力神器。
2026-04-14 21:10:45
417
原创 微软开源最前沿语音 AI!三合一家族:60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话
微软开源VibeVoice语音AI家族,包含三大前沿模型:ASR模型支持60分钟长音频一次性转写,具备结构化输出和多语言能力;TTS模型可实现90分钟多角色语音合成(已因伦理问题下架代码);Realtime模型提供0.5B参数轻量级实时流式合成。核心技术采用7.5Hz超低帧率分词器和Next-token Diffusion框架,显著提升处理效率。该系列已被ICLR 2026录用,体现了微软在语音AI领域的技术突破与伦理考量。
2026-04-13 13:31:18
550
原创 输入一个主题,AI 全自动生成短视频!这个开源工具让视频创作真正零门槛
Pixelle-Video是一款全自动AI短视频生成工具,只需输入主题即可自动完成文案创作、配图生成、语音合成、背景音乐添加和视频合成全流程。该工具基于ComfyUI模块化架构,支持本地部署或云端运行,提供Windows一键整合包实现零门槛使用。主要功能包括数字人口播、图生视频和动作迁移等创新玩法,支持竖屏/横屏/方形多种视频尺寸。用户可选择完全免费(本地运行)或低成本云端方案,适用于不同技术水平的创作者。该开源项目持续更新,让视频创作真正实现零门槛。
2026-04-13 13:21:07
1879
原创 美团 AI 开源!一段音频驱动无限时长说话视频,嘴唇/头部/表情全同步,支持 ComfyUI 一键部署
美团AI开源InfiniteTalk音频驱动视频生成框架,基于Wan2.1-14B大模型,实现从图片/视频生成说话视频。该技术突破传统仅嘴唇同步的限制,实现头部动作、身体姿态、面部表情全同步,支持无限时长生成和ComfyUI一键部署。通过稀疏帧视频配音框架,选取关键帧锚点进行插值传播,保证时序一致性。提供480P/720P双分辨率输出,支持低显存模式和8卡并行推理,适用于数字人、视频配音等场景。项目已在GitHub开源,包含完整技术文档和预训练模型。
2026-04-13 13:09:28
712
原创 画个框就能抠掉视频里的任意物体!这个开源项目让视频物体消除变得像截图一样简单
视频物体消除工具video-object-removal通过两阶段AI管道实现一键消除视频中任意物体。用户只需在第一帧画框标记目标,SiamMask算法自动追踪目标生成逐帧掩码,Deep Video Inpainting算法则利用相邻帧信息智能修复背景。该方法解决了传统视频编辑中逐帧标注耗时、时序一致性难保证等痛点,支持各类视频场景。项目提供预训练模型,但依赖特定版本环境和GPU运算。这种"画框即消除"的交互方式,极大降低了视频编辑的技术门槛。
2026-04-11 22:23:32
439
原创 NVIDIA 这篇论文把光流估计做成了「金字塔+变形+代价容积」的端到端网络,至今被引8000+
摘要:NVIDIA提出的PWC-Net是CVPR 2018 Oral论文,将光流估计的三大核心技术(金字塔结构、变形操作和代价容积)整合为端到端CNN网络。该网络采用coarse-to-fine策略逐层细化光流估计,参数量仅8.7M却显著优于传统方法,在Sintel数据集上EPE指标达1.81/2.29。论文引用超8000次,PyTorch实现保持与Caffe版本相近性能。PWC-Net通过特征金字塔处理大位移、变形操作缩小搜索范围、代价容积实现特征匹配,为视频分析、自动驾驶等领域提供了高效解决方案。
2026-04-11 21:45:50
365
人工智能基于LangGraph与MCP协议的智能体开发技术指南:国产大模型驱动的AI Agent构建与RAG系统实现
2025-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅