麻瓜pro-CSDN博客

原创 RAG从入门到实现：手把手教你打造智能文档问答系统

RAG全称是（检索增强生成），听起来很高深？传统AI问答：AI只能基于训练时学到的知识回答，无法获取最新信息RAG问答：AI先从你的文档中检索相关内容，再基于这些内容生成回答简单来说，RAG =搜索引擎AI对话轻量级：无需复杂的向量数据库多格式支持：7种常见文档格式本地化：数据不上传云端，隐私安全实时性：内存计算，响应速度快可扩展：代码结构清晰，易于修改。

2025-06-11 16:41:54 583

你有没有想象过在本地快速搭建一个完整的语音对话系统？只需一台普通电脑，无需联网，甚至低算力设备也能流畅运行。这篇博客将手把手带你实现一个端到端的语音交互系统，从语音输入到语音回复，全链路完整展示。ASR-LLM-TTS Onnx 项目实现一个在本地运行的端到端语音对话系统，能够完成“语音 -> 文本 -> 对话回复 -> 语音”的全过程。项目地址：https://github.com/muggle-stack/asr-llm-tts。

2025-06-04 09:30:00 1129

原创语言指导图像分割（clip-sam-onnx)

CLIPSeg（CLIP + Segmentation）是基于 CLIP 的一种零样本分割模型。它在预训练的 CLIP 基础上添加了一个Transformer解码器，用于将 CLIP 提取的图像语义特征转化为像素级的分割预测。通俗来说，CLIPSeg 利用了 CLIP 对图像语义的理解力（源自4亿对图文数据的训练），能够根据任意文本描述，在图像中直接生成对应区域的掩码。图像预处理。

2025-05-27 12:19:29 1162

原创 MCP是什么？怎么实现？

先说结论：MCP 是 Anthropic 把 function call 平台化的一步棋，本质是工具接口的统一协议，目标是让 Claude 自动调全世界的工具，谁先做生态，谁就是 AI 里的 App Store。仓库地址：https://github.com/muggle-stack/MCP.git。

2025-05-23 10:00:00 1318

原创 onnxruntime模型静态量化（PTQ）

ONNX Runtime的训练后静态量化 (Post-Training Static Quantization, PTQ) 是一种模型优化技术，通过将模型的权重和激活值从浮点数（如FP32）转换为低精度整数（如INT4、INT8），从而减少模型体积、提升推理速度并降低资源消耗。

2025-05-22 10:00:00 1033

原创大语言模型函数调用(Function Call)

主要作用是输入内容以后先通过第一个模型（FCModel)判断你输入的prompt是否存在函数，如果存在，则会触发tool calls，执行相应的函数，然后返回bool类型数据为true，当if检测到function_called为true的时候，重新回到循环，等待你的下一次输入。text就是传进来的“你的问题”，message包括两个部分，一个是系统的system prompt，另一个则是你的输入content。默认是流输出的方式输出文字，也可以自己改为false。

2025-05-21 10:00:00 481

原创 Yolo姿态行人检测（onnxruntime后端、量化后续写）

模型训练的时候输入的HW（高宽）就是固定的（很多模型都不支持动态输入），具体模型的tensor可以通过etron.app去查看，下面就是netron看到的模型输入[N,C,H,W]，N表示批次，C表示颜色三通道。将boxs和关键点传入后处理函数，boxs的第5维向量是置信度（x, y, w, h, conf)，前四维是框的坐标。剩下的51维是关键点，总计17个关键点，每三维为1个关键点。源码在我的仓库都能找到，觉得有帮助的给个star呗，star数超过10，我将开源c++代码。

2025-05-20 09:20:20 618 1