政安晨-CSDN博客

原创【嵌入式人工智能产品开发实战】（二十一）—— 政安晨：源码搭建小智AI嵌入式终端的后端服务（服务器）环境 - 助力嵌入式人工智能开发

我们开发嵌入式人工智能产品，如果有趁手的本地后端服务框架配合确实会事半功倍，我们这就开始部署我们自己本地的嵌入式终端硬件的AI服务后端。本项目为开源智能硬件项目 xiaozhi-esp32提供后端服务。本文完全演绎在本地主机上进行源码部署。

2025-04-20 10:46:23 1113

原创政安晨【零基础玩转各类开源AI项目】UNO —— 让设计师破防的利器（该项目专注提升AI图像生成的可控性）：演绎该项目部署应用的全过程

尽管主题驱动生成在图像生成领域因其广泛的应用而得到了深入的研究，但它在数据可扩展性和主题可扩展性方面仍然面临挑战。对于第一个挑战，从构建单主题数据集转向多主题数据集并进行扩展尤其困难。对于第二个挑战，大多数近期的方法集中在单主题生成上，这使得在处理多主题场景时难以应用。在本研究中，项目提出了一种高度一致的数据合成流程来应对这一挑战......

2025-04-15 17:12:00 707

原创【深度前沿】多模态大模型（MLM）“下凡“嵌入式：挑战、机遇与 AlphaXiv Assistant 实战探索

多模态大模型 (Multimodal Large Models, MLM) 正以前所未有的速度重塑人工智能领域。然而，将这些计算和内存密集型的庞然大物部署到资源受限的嵌入式设备上，是一项极具挑战性的任务。本文将探讨利用新兴的 AI 科研工具 AlphaXiv Assistant研究多模态大模型在嵌入式领域应用的最新研究进展，分析其面临的核心挑战（如模型压缩、效率优化、软硬件协同设计），并挖掘其在智能物联网、自动驾驶、可穿戴设备等场景的巨大潜力。

2025-04-14 12:43:30 1045

原创【嵌入式人工智能产品开发实战】（二十）—— 政安晨：小智AI嵌入式终端代码解读：【C】关于项目中的MQTT+UDP核心通信交互理解

小智AI作为一款基于ESP32开发板的嵌入式语音助手，其通信模块采用了MQTT协议与UDP协议相结合的方式，实现了低延迟、高可靠性的数据传输。本文将深入解析小智AI嵌入式终端项目中MQTT+UDP通信交互的设计思路和代码实现，帮助开发者更好地理解其技术细节。其实MQTT+UDP的方式，非常好地保证了小智AI对话时打断地实时性，笔者测试多种通信方式，发现小智选择的这种通信方式对于实时响应是非常高效的。

2025-04-14 11:32:13 1188

原创【嵌入式人工智能产品开发实战】（二十）—— 政安晨：小智AI嵌入式终端代码解读：【B】小智AI嵌入式终端OTA升级功能深度解析

小智AI的OTA升级功能以其高效、可靠的设计，为用户提供了便捷的固件更新方式。通过合理的架构设计和细致的代码实现，该功能不仅满足了设备的基本维护需求，还为用户带来了更优质的体验。应用层：负责触发OTA升级流程，并提供用户界面反馈。业务逻辑层：由Ota类实现，负责版本检查、固件下载、分区写入等核心逻辑。通信层：通过HTTP协议与服务器交互，获取固件文件。底层驱动：基于ESP-IDF框架提供的OTA API，完成固件分区管理、数据写入等操作。

2025-04-14 11:09:39 954

原创【嵌入式人工智能产品开发实战】（十九）—— 政安晨：小智AI嵌入式终端代码解读：【A】应用入口

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！赞扬一下小智AI的嵌入式开发团队，封装的不错，每个通用功能封装起来，与主板有关的硬件差异单独封装到board类中。启动函数中，先把board类实例化，然后接下来将硬件以board中的方法逐渐初始化完成，并在这个过程中启动通用的功能进程。

2025-04-13 16:30:16 636

原创政安晨【超级AI工作流】—— 好东西必须与大家分享：搭建本地的N8N工作流服务（十分简单，免费&很有用）

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！为什么我们愿意把精力放在开源项目上？我觉得其中一个原因就在于好的开源项目会给开发者们底层的安全感。n8n 就是这样一个开源的工作流自动化平台，为技术团队提供了代码的灵活性和无代码的速度。凭借 400 +集成、原生人工智能功能以及公平代码许可证，n8n 让您能够构建强大的自动化流程，同时保持对数据和部署的完全控制。

2025-04-12 10:52:42 919

原创政安晨【超级AI工作流】—— 基于COZE探索有趣的主题互动问答工作流（同宇宙儿童提问机）

本例，我们将从零展示如何在Coze上创建一款专门针对儿童对某项主题进行问答的对话流智能体，并以此为例，分析AI工作流在设计时要注意的问题。

2025-04-04 13:39:51 743

原创【嵌入式人工智能产品开发实战】（十八）—— 政安晨：小智AI的Websocket通信协议嵌入式终端代码解读

本文详细介绍了小智AI项目中WebSocket通信协议的实现细节。通过分析源代码，我们理解了设备端与服务器端之间的通信流程、消息结构以及错误处理机制。本协议通过在WebSocket上层传输JSON文本与二进制音频帧，完成功能包括音频流上传、TTS音频播放、语音识别与状态管理、IoT指令下发等。服务器与客户端需提前约定各类消息的字段含义、时序逻辑以及错误处理规则，方能保证通信顺畅。希望本文能为开发者提供一个清晰的参考文档，便于后续对接、开发或扩展。

2025-03-31 19:29:32 1258

原创【嵌入式人工智能产品开发实战】（十七）—— 政安晨：手把手教你将小智AI编译进ESP32-S3-BOX开发板

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！小智AI是一款基于ESP32-S3/C3的开源聊天机器人方案，支持语音交互、大模型推理（如DeepSeek）及物联网功能。本文以ESP32-S3-BOX开发板为硬件载体，详细介绍从环境搭建到固件烧录的完整流程，助你快速实现一个智能语音助手。重点是：本篇可以手把手教你将小智AI编译进ESP32-S3-BOX开发板

2025-03-26 12:06:22 1203

原创政安晨【零基础玩转各类开源AI项目】DiffRhythm —— 将您的想法转化为惊艳的音乐

使用 DiffRhythm 最先进的扩散模型技术，体验音乐创作的未来。从简单的旋律到复杂的交响曲，让我们的 AI 将您的音乐想法转化为专业的作品。这个项目的特点在于，它生成的音乐歌曲真的很棒！您真的可以享受你自己的创作！DiffRhythm（中文：谛韵，D😍Y😍n）是第一个能够创作全长歌曲的开源基于扩散的音乐生成模型。这个名字将 “Diff”（参考其扩散架构）与 “Rhythm”（突出其对音乐和歌曲创作的关注）结合在一起。

2025-03-24 17:20:08 825

原创政安晨【超级AI工作流】—— 基于ComfyUI工作流配合AI音乐插件轻松生成原创歌曲，助你成为音乐大师

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！本篇我们将借助DiffRhythm 是一种基于潜扩散模型（Latent Diffusion Model）的AI音乐生成技术，基于ComfyUI工作流生成原创音乐。DiffRhythm以其快速生成完整歌曲（最长4分45秒，仅需不到10秒）而著称。现在，我们就借助ComfyUI 强大的开源节点式界面，通过插件扩展支持音乐生成。

2025-03-23 14:58:25 1047

原创政安晨【超级AI工作流】—— 使用Dify通过工作流对接ComfyUI实现多工作流协同

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！未来基于AI工作流的生活将成为常态，大家从现在就开始了解并使用起来，好处满满，让我们开始这个有趣的尝试。通过我前面的文章，相信小伙伴们自己电脑上已经安装了Dify、ComfyUI、Ollama这些工具。我们接下来就把这些零碎儿全组织起来。为我们创造出本地超级好用的AI工作流工具！

2025-03-22 18:21:21 986

原创政安晨【超级AI工作流】—— 基于Dify构建本地工作流，并调用Ollama的本地大模型开展工作

市面上目前工作流分为几种形式，一种是以Coze为代表的基于网页的工作流形式，另一种以langchain与llamaindex为主的基于代码框架的形式。而开源的webui工作流框架主要有这类基于webui 的工作流。我们选择Dify作为未来本地工作流的基础框架。

2025-03-20 05:45:00 1146

原创政安晨【零基础玩转各类开源AI项目】—— 【Gemma 3】单张显卡小身板本地部署强大的多模态AI

Gemma 3 被谷歌称为目前最强的开源视觉模型之一。该模型支持超过35种语言，能够分析文本、图像和短视频。值得注意的是，Gemma 3 的视觉编码器经过升级，支持高分辨率和非方形图像，并引入了 ShieldGemma 2 图像安全分类器，用于过滤被分类为性暗示、危险或暴力的内容。这些特性使得 Gemma 3 成为当前最强大的开源视觉模型之一。谷歌自述：自首次推出以来，Gemma 模型的下载量已超过 1 亿次，社区为各种用例创建了超过 6 万个变体。

2025-03-18 05:45:00 1100

原创政安晨【超级AI工作流】—— 以“主题播客工厂”的AI应用为例详细讲述Coze平台的AI工作流应用搭建技巧

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！本篇我们以Coze平台上这个同宇宙的“主题播客工厂”的应用为例，详细讲解搭建AI工作流。扣子扣子是新一代 AI 大模型智能体开发平台。整合了插件、长短期记忆、工作流、卡片等丰富能力，扣子能帮你低门槛、快速搭建个性化或具备商业价值的智能体，并发布到豆包、飞书等各个平台。没有扣子账号的小伙伴可以免费注册一个，很好玩的。

2025-03-15 13:38:14 1026

原创政安晨【超级AI工作流】开篇：从混沌到秩序的智能工程革命

AI工作流是指通过整合人工智能技术，将复杂的业务流程分解为多个子任务，并利用AI工具自动化处理各环节的智能化流程管理系统。其核心在于通过预定义规则和动态调整能力，实现任务的高效执行与优化。流程拆解与自动化：将完整业务流程（如订单处理、客户服务）拆分为独立步骤，通过AI工具自动化衔接各环节。智能决策支持：AI不仅执行固定步骤，还能根据上下文动态调整策略，如在多模态任务中自主选择最优处理路径。灵活性与扩展性：支持根据需求修改步骤规则，适应业务变化，同时能处理从标准化操作到创意生成等多样化任务。效率提升。

2025-03-14 13:00:18 793

原创政安晨【零基础玩转各类开源AI项目】OpenManus + Ollama本地大模型 - 你的通用型智能体全能解决方案的开始

今天我们来演绎OpenManus，这是一款可以调用本地Ollama的通用型智能体。Manus是由中国创业公司Monica发布的全球首款通用型AI Agent（自主智能体）产品，于2025年3月6日正式推出。其核心定位是作为一款能够“连接思想与行动”的智能助手，不仅能提供想法，还能独立执行复杂任务，覆盖工作与生活场景（如处理邮件、编程、数据分析等）。

2025-03-12 12:52:56 1045

原创政安晨【零基础玩转各类开源AI项目】Wan 2.1 本地部署，基于ComfyUI运行，最强文生视频 & 图生视频，一键生成高质量影片

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！我们今天要使用的Wan2.1模型，文生视频与图生视频，效果很不错，我以前的文章部署过comfyUI：政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署ComfyUI：功能最强大、模块化程度最高的Stable Diffusion图形用户界面和后台_comfyui ubuntu-CSDN博客ComfyUI这套框架可让您使用基于图形/节点/流程图的界面设计和执行高级稳定扩散管道。

2025-03-11 15:52:28 1640

原创简述一下anythingllm与vllm

anythingllm与vllm两者虽然都属于大语言模型领域内的工具集，但在定位上存在明显差异：前者强调综合性的解决方案和服务质量保障机制；后者则是为了满足追求极致效率的专业人士而生的产品线延伸版本。

2025-03-01 18:50:37 711

原创政安晨的AI大模型训练实践十二 - 基于千问的Qwen2.5-VL-3B-Instruct 多模态模型进行微调参数认知 3

解释多模态大模型训练过程中的一些必要参数。

2025-02-25 15:45:11 1328

原创政安晨的AI大模型训练实践十一 - 基于千问的Qwen2.5-VL-3B-Instruct 多模态模型进行微调参数认知 2

微调一个大模型要准备的背景知识还是很多的。本节我们介绍训练阶段的一些主要参数。

2025-02-24 20:13:06 868

原创政安晨的AI大模型训练实践十 - 基于千问的Qwen2.5-VL-3B-Instruct 多模态模型进行微调的基本参数认知

我们开始基于LLaMAFactory工具微调Qwen2.5-VL-3B-Instruct这个多模态模型。开始之前，我们需要在基本术语认知的基础上，对UI中的参数进一步细化理解。工欲善其事，必先......，所以，先学习。

2025-02-23 19:28:17 1081

原创政安晨【零基础玩转各类开源AI项目】DeepSeek 多模态大模型Janus-Pro-7B，本地部署！支持图像识别和图像生成

以后铁子们玩开源大模型就朝着多模态的方面进发吧，未来开源的多模态大模型不在多模态领域整出点花花儿，都不好意思说自己是搞开源的。🤭🤭🤭今天我们一起部署一下这个Janus-Pro-7B的模型，正好手头缺一款轻量级自由出图助手！嘻嘻。

2025-02-22 15:59:06 440

原创政安晨的AI大模型训练实践九 - 熟悉LLaMA Factory的详细参数含义-基本概念理解一下

小伙伴铁子们，上手先熟悉起来训练工具的每一个参数，很重要。参照我以前的文章先把您的工具搞起来，然后开干！LLaMAFactory可以成为你启动训练的手边工具。

2025-02-21 11:52:58 985

原创政安晨【零基础玩转各类开源AI项目】当前Qwen 家族的最新成员： Qwen2.5-VL —— 有趣的视觉大模型

自 Qwen2-VL 发布以来的五个月中，众多开发人员在 Qwen2-VL 视觉语言模型的基础上构建了新模型，并为我们提供了宝贵的反馈意见。在此期间，我们专注于构建更有用的视觉语言模型。今天，我们非常高兴地向大家介绍 Qwen 家族的最新成员： Qwen2.5-VL。

2025-02-15 19:53:39 1576

原创政安晨【零基础玩转各类开源AI项目】EchoMimicV2：数字人—— 迈向惊艳、简化的半身人物动画

EchoMimicV2 是阿里达摩院开源的一款强大的基于音频驱动的肖像动画生成工具。可以用来快速生成各类数字人，并让数字人做出各种动作。

2025-02-15 14:38:46 992

原创与DeepSeek问话的样式模板有哪些类？- 记录

与DeepSeek交流的对话模板可根据核心功能和使用场景分为以下类别，每种类型均提供典型句式参考，帮助用户更精准地表达需求

2025-02-13 15:59:02 782

原创政安晨的AI大模型训练实践八 - Open-WebUI启动本地大模型（Ollama）

微调出一个大模型，总想用一用，虽然有很多工具可以选择，但企业级的免费开源工具还是不多，我觉得Open-WebUI具备这样的潜力。

2025-02-13 11:15:33 314

原创政安晨的AI大模型训练实践七 - AnythingLLM运行vLLM启动地本地自己训练的大模型

大模型的应用并不是一件难事，只要你能够亲自去试试，今天给大家简单演示。我最近用llamafactory微调了一个deepseek-r1-1.5b的本地模型，用vLLM把模型跑起来提供api，用AnythingLLM测试。

2025-02-12 14:20:43 536 4

原创政安晨的AI大模型训练实践六 - open-webui & vLLM 运行

简单微调出来一个大语言模型后，需要运行它，虽然ollama很方便，也适合部署。但本地测试的话，还可以使用open-webui 和 vLLM这两个工具。我的博客为了不取悦读者，请自己去查这两个工具是干啥用的，我这里只记录一些命令，做个自己运行的备忘即可。

2025-02-12 13:21:36 1685

原创政安晨的AI大模型训练实践五：用最小的模型 DeepSeek-R1-1.5B-Distill 尝试训练（用最省事最默认的参数微调一下）

LLaMAFactory工具训练模型的流程包括数据准备、特征工程、模型选择、模型训练、模型评估、模型调优和模型保存和部署。通过这个流程，可以从原始数据到训练好的模型，并在实际应用中使用。

2025-02-09 14:39:34 1755 5

原创政安晨的AI大模型训练实践四：准备一个合适的模型微调，先试一下，比如：DeepSeek-R1-14B-Distill

我们尝试使用 DeepSeek-R1-14B-Distill这个DeepSeek R1 14B的蒸馏模型来微调。微调一个有一定参数规模的大模型比如14B的DeepSeek-R1大概准备200G以上的空间。

2025-02-08 16:49:26 508 3

原创逻辑起源 - 比较DS与豆包对“逻辑”源头的提炼差异

比较DS与豆包对“逻辑”源头的提炼差异

2025-02-06 20:40:45 837

原创探索开源的数字人框架（基于DeepSeek检索记录）

近期正在准备一套数字人，使用DeepSeek的联网+推理，记录一下当前的一些数字人框架，以备后续使用

2025-02-05 15:05:02 1237

原创利用DeepSeek提炼腾讯AI研究院的图景关键词——延伸畅想

人工智能技术的迅猛发展正在深刻重塑社会，腾讯研究院开发了一系列AI资讯产品，以减少信息获取成本和提升学习效率。这些产品运营过程类似于大语言模型的优化，不断吸收新数据和产生新洞见。基于三十余万字的AI进展数据库，该报告精选了50个关键词，展示了AI行业的重点领域和趋势，为研究和决策提供参考。下面我基于每一页关键词配合deepseek，看能否提炼出有趣的东西。

2025-02-02 16:45:26 1082