- 博客(7)
- 收藏
- 关注
原创 RAG从入门到实现:手把手教你打造智能文档问答系统
RAG全称是(检索增强生成),听起来很高深?传统AI问答:AI只能基于训练时学到的知识回答,无法获取最新信息RAG问答:AI先从你的文档中检索相关内容,再基于这些内容生成回答简单来说,RAG =搜索引擎AI对话轻量级:无需复杂的向量数据库多格式支持:7种常见文档格式本地化:数据不上传云端,隐私安全实时性:内存计算,响应速度快可扩展:代码结构清晰,易于修改。
2025-06-11 16:41:54
583
原创 本地端到端语音(ASR-LLM-TTS)
你有没有想象过在本地快速搭建一个完整的语音对话系统?只需一台普通电脑,无需联网,甚至低算力设备也能流畅运行。这篇博客将手把手带你实现一个端到端的语音交互系统,从语音输入到语音回复,全链路完整展示。ASR-LLM-TTS Onnx 项目实现一个在本地运行的端到端语音对话系统,能够完成“语音 -> 文本 -> 对话回复 -> 语音”的全过程。项目地址:https://github.com/muggle-stack/asr-llm-tts。
2025-06-04 09:30:00
1129
原创 语言指导图像分割(clip-sam-onnx)
CLIPSeg(CLIP + Segmentation)是基于 CLIP 的一种零样本分割模型。它在预训练的 CLIP 基础上添加了一个Transformer解码器,用于将 CLIP 提取的图像语义特征转化为像素级的分割预测。通俗来说,CLIPSeg 利用了 CLIP 对图像语义的理解力(源自4亿对图文数据的训练),能够根据任意文本描述,在图像中直接生成对应区域的掩码。图像预处理。
2025-05-27 12:19:29
1162
原创 MCP是什么?怎么实现?
先说结论:MCP 是 Anthropic 把 function call 平台化的一步棋,本质是工具接口的统一协议,目标是让 Claude 自动调全世界的工具,谁先做生态,谁就是 AI 里的 App Store。仓库地址:https://github.com/muggle-stack/MCP.git。
2025-05-23 10:00:00
1318
原创 onnxruntime模型静态量化(PTQ)
ONNX Runtime的训练后静态量化 (Post-Training Static Quantization, PTQ) 是一种模型优化技术,通过将模型的权重和激活值从浮点数(如FP32)转换为低精度整数(如INT4、INT8),从而减少模型体积、提升推理速度并降低资源消耗。
2025-05-22 10:00:00
1033
原创 大语言模型函数调用(Function Call)
主要作用是输入内容以后先通过第一个模型(FCModel)判断你输入的prompt是否存在函数,如果存在,则会触发tool calls,执行相应的函数,然后返回bool类型数据为true,当if检测到function_called为true的时候,重新回到循环,等待你的下一次输入。text就是传进来的“你的问题”,message包括两个部分,一个是系统的system prompt,另一个则是你的输入content。默认是流输出的方式输出文字,也可以自己改为false。
2025-05-21 10:00:00
481
原创 Yolo姿态行人检测(onnxruntime后端、量化后续写)
模型训练的时候输入的HW(高宽)就是固定的(很多模型都不支持动态输入),具体模型的tensor可以通过etron.app去查看,下面就是netron看到的模型输入[N,C,H,W],N表示批次,C表示颜色三通道。将boxs和关键点传入后处理函数,boxs的第5维向量是置信度(x, y, w, h, conf),前四维是框的坐标。剩下的51维是关键点,总计17个关键点,每三维为1个关键点。源码在我的仓库都能找到,觉得有帮助的给个star呗,star数超过10,我将开源c++代码。
2025-05-20 09:20:20
618
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人