iwgh-CSDN博客

原创小落同学：可用十年前老笔记本纯CPU跑的全套虚拟人方案

市面上各种虚拟人方案多如牛毛，但是基本上清一色都需要GPU，咱买不起带GPU的电脑，所以自己手搓了这么一个方案。

2026-05-04 17:26:05 223

原创小落同学改版计划：消费级GPU跑全套虚拟人ASR+TTS+3DAvatar

本文探讨了在12GB显存的消费级GPU上部署虚拟人"小落同学"的技术方案。硬件推荐RTX 3060 12GB，显存分配为：ASR 1-2GB（推荐Paraformer）、TTS 1-2GB（推荐Kokoro）、LLM 4-6GB（7B量化模型）、3D Avatar（LongCat方案）。文章详细对比了各模块的开源模型选择，包括ASR的FunASR、TTS的Kokoro和CosyVoice、3D Avatar的LongCat和LAM等，并提供了完整的处理流程设计建议，为在消费级GPU上构建

2026-04-19 23:43:33 223

原创 OddAsr更新：将默认模型从moonshine改回paraformer

搞来搞去，还是切回paraformer模型。如果不是因为我这个用了超过十年的老笔记本CPU不太够用，我也完全不想去折腾一些其他的轻量级的ASR模型。

2026-04-18 21:48:36 168

原创轻量级本地ASR方案：Moonshine Voice从入门到实战

前阵子我把Kokoro整合到OddTTS里，给我的小落同学项目用起来了，结合 Moonshine（语音识别）+ Kokoro（语音合成），可以实现完全的本地端到端语音对话，但是由于我的电脑配置太差（十年前的老笔记本），所以还是想再把OddASR的模型再给换一个更轻量级的试试看效果，这个Moonshine的数据看上去不错，后面准备把它整合一下到OddASR，放到小落同学上去跑跑看效果。

2026-04-14 00:00:34 397

原创轻量级语音变声方案：FFmpeg 实现指南

本文介绍了使用FFmpeg进行轻量级语音变声的技术方案。通过asetrate和aresample滤镜组合实现基础变调，配合atempo滤镜可保持音频时长不变。文章提供了常用变声效果库、Rubberband插件的高质量方案，以及性能实测数据。该方法在OddTTS项目中被应用于TTS后处理、语音克隆预处理和多语言音色匹配等场景。相比专业模型，FFmpeg变声具有轻量、即时、无需GPU的优势，适合简单变调需求。文章还指出了注意事项，如atempo限制和音质损耗问题，并对比了不同方案的优缺点。

2026-04-12 23:11:25 395

原创用 OpenSpec 规范 AI 辅助开发：让 AI 准确理解你的需求 --

OpenSpec是一个规范化AI辅助开发的框架，通过标准化流程大幅减少AI理解偏差。它将开发流程分为提案→执行→归档三个阶段：提案阶段用结构化模板明确需求；执行阶段AI按审核后的任务清单生成代码；归档阶段记录变更形成规范。相比传统AI编程，OpenSpec使代码可用率从30%提升至80%以上。工具支持中文版本，通过npm安装后即可使用斜杠命令快速创建提案、执行变更和归档记录。关键优势在于结构化输入减少歧义、可审查确保理解正确、版本管理方便回溯。建议结合代码审查使用，并保持提案小而精、定期归档。

2026-04-06 23:14:18 440

原创用 OddTTS + oh-my-openagent 从0实现有声书功能

摘要本文介绍了基于OddTTS开源项目开发的有声书转换工具的实现过程。该工具可将10万字技术电子书转换为自然流畅的人声有声书，具有以下特点：支持5万字文本转换（约2.5小时音频）、纯CPU推理、8种音色切换、中英混合朗读及断点续传功能。实现过程分为多个阶段：首先通过Metis进行需求分析，明确功能需求和潜在风险；然后由Prometheus制定详细实现计划，划分文本预处理、TTS服务集成等5个模块；接着通过Explore分析OddTTS源码；最后由Sisyphus协调各模块开发，包括文本分割、TTS客户端

2026-04-05 19:28:12 434

原创 OddTTS更新：十年前老笔记本以纯CPU跑中英混合语音合成

摘要：文章介绍了两种轻量级语音合成模型Kokoro和MeloTTS的测试结果，最终选择Kokoro v1.1作为小落同学项目的语音合成方案。详细说明了OddTTS的安装使用、API调用方法、性能测试数据及注意事项，包括首次运行耗时约42.8秒，后续合成11字文本约1.6秒。同时提供了模型下载、常见问题解决方案和系统环境要求，特别感谢路遥对中英混合实现方案的帮助。（149字）

2026-04-04 22:03:22 411

原创轻量级TTS：MeloTTS纯CPU跑语音合成指南

MeloTTS是一款轻量级开源语音合成工具，支持多语言混合输入，能在普通CPU上实现实时语音合成。相比云端API方案，它具备离线运行、隐私保护、成本低廉等优势，特别适合智能设备、有声书制作等技术场景。该工具基于VITS2架构，支持中文、英文等多种语言和口音，提供Python API和命令行两种调用方式，MIT许可证允许免费商用。安装过程简单，仅需克隆仓库、配置环境即可快速使用，是边缘计算和本地化语音合成的理想选择。

2026-03-29 21:08:18 431

原创 OddTTS：加入Kokoro语音合成支持，完全纯本地CPU跑语音合成

前两天针对轻量级TTS引擎Kokoro做了一些测试（ https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ），测试下来发现效果居然挺好的，而且自带8种音色的支持，纯CPU跑，速度还快，测完了我就停不下来了，当时就想把它整合到我的[OddTTS项目](https://github.com/oddmeta/oddtts "OddTTS项目")，今天周末终于有空，于是就简单搞了一下，现在已经在我的[小落同学](https://www.oddmeta.net/proj

2026-03-28 17:26:56 271

原创 OpenClaw七大配置：从SOUL、USER、AGENTS到MEMORY

七个配置文件：SOUL、USER、AGENTS、HEARTBEAT、IDENTITY、BOOTSTRAP、TOOLS，三种使用场景：个人助手、个人知识库、数字分身（跟我的小落同学一样，复刻一个数字版本的你自己），加上 MEMORY 让你的 OpenClaw 从「傻白甜」变成「专属智能体」

2026-03-23 23:04:35 802

原创 OddAgent：从0到1打造你自己的智能家居语音助手

想不想拥有一个完全属于你自己的"小爱同学"或"小艺"？今天我来教你用开源项目 OddAgent，从零开始搭建一套智能家居意图识别系统。

2026-03-22 20:46:58 379

原创白嫖党福音：如何给 OpenClaw 装上免费联网搜索

我花了一个下午，调研了市面上所有的免费搜索方案，从阿里云百炼的免费额度，到 Tavily 的每月限额，再到 Google Serper 的试用陷阱。最终，我锁定并成功实施了一个**完全免费、无需注册、纯本地运行**的终极方案：**DuckDuckGo + 自建 Python 脚本**。

2026-03-18 23:58:00 1390

原创把你的MCP Server部署到公网，让阿里云上的应用来访问和使用

这个周末的任务就是：<font color=red>**把原先一直在我本地电脑上跑的小落同学的MCP Server部署到公网，并让阿里云上的小落同学来访问和使用。**</font>

2026-02-02 18:29:53 627

原创手把手带你用扣子实现一个完整的Skills：网页书签

手把手教你在扣子平台上实操SKILL，从创建SKILL开始，到调试优化，部署上线，以及如何在扣子上使用这个SKILL，包你一看就懂，一学就会。

2026-01-24 23:24:59 1319

原创手把手带你用OpenCode实现一个完整的Skills：网页书签

手把手带你用OpenCode实现一个完整的Skills：网页书签。用OpenCode Desktop完整演示如何实现一个书签功能的Skills，而且可以通过MCP协议接入外部服务，包你一次学会。

2026-01-24 02:40:19 2255

原创开源全能意图、指令识别框架 OddAgent 更新

为了避免日后大家在授权问题上出现顾虑，我特别将 OddAgent 的授权从GPL改成了MIT。

2026-01-19 18:43:18 582

原创 OddAgent：一个通用的意图、指令识别框架

想自己动手来手搓一个完全属于你自己的“小爱同学”、“小艺”吗？如果有你这么一个想法，而又不知道该如何开始的话，那么[OddAgent](https://pypi.org/project/oddagent/ "OddAgent")项目可以成为你非常容易上手的开源项目。

2026-01-07 09:14:23 861

原创【有手就行】利用大模型批量生成数据集

之前用的更多的是利用ChatGPT来生成数据，但是为了写这篇文章，我又专门用千问、文心、豆包、ChatGPT走了一遍完整流程。这篇文章主要有用的就是生成数据的提示词，顺便用这个实例介绍对比一下几个主流模型的表现，供大家参考。

2026-01-01 01:14:27 774

原创【有手就行】SWIFT：花20分钟把大模型的名字变成你的名字

你有没有问过大模型`“你是谁”`？问了的话，拿到的答案清一色都是大模型厂商的名字。而如果你自己部署了一个模型的话，通常都希望有人在你的应用里问你是谁的时候能给出一个`“你的答案”`。**<font color=red>这篇文章就是干这个事情的，20分钟让大模型的名字变成你自己的名字。</font>**

2025-12-20 22:44:36 712

原创【有手就行】LoRA：用你自己的数据来微调大模型，让大模型真正懂你

在现在这个时代，完全可以说，大部分的技术都是没有什么价值的，因为大部分的技术都是**有手就行**。真正的价值都在数据，而且最有价值的数据往往都是一个个的专业领域的数据，决定大模型微调效果的是数据，决定你整个产品成败的也是数据，这个事情一定要搞清楚。

2025-12-14 22:11:51 929

原创【有手就行】自己花20分钟从0开始训练一个“大模型”

本文介绍了一个轻量级中文GPT模型训练项目GPT_teacher-3.37M-cn，该模型仅3.37M参数，可在普通CPU上20分钟内完成训练。文章详细展示了从环境准备、分词器构建到训练测试的完整流程，重点解析了模型采用的RMSNorm、RoPE位置编码等优化技术。虽然小参数模型存在局限性，但该项目为理解大模型训练提供了实践机会。最后还探讨了大模型幻觉成因及使用时的调参技巧，帮助初学者快速入门大模型训练与应用。

2025-12-06 23:51:07 405

原创 OddAgent：轻松手搓一个你自己的“小艺”、“小爱同学”

想自己动手来手搓一个完全属于你自己的“小爱同学”、“小艺”吗？如果有你这么一个想法，而又不知道该如何开始的话，那么OddAgent项目可以成为你非常容易上手的开源项目。

2025-11-09 22:14:17 711

原创 AI编程：国内外主流大模型的集体翻车

摘要：作者尝试用多个AI大模型（包括TRAE、通义灵码、豆包等）生成"OddMeta"的ASCII艺术字，但无一成功。尽管反复修改提示词，各模型要么输出错误文字，要么声称已修改但实际未改。这一简单需求耗费数小时未果，让作者对当前AI的实际能力产生质疑，最终愤而记录这次失败经历。

2025-10-19 22:05:32 459

原创 frp：让你家里的电脑也可以被公网访问

本文介绍了如何利用FRP工具实现内网穿透，将家庭电脑的服务通过阿里云ECS暴露到公网。作者选择了FRP作为解决方案，详细记录了在Linux服务器和Windows客户端的配置步骤，包括安全组设置、防火墙配置、FRP服务端和客户端的安装与参数调整。文章重点演示了HTTP模式的成功配置过程，并简要提及了HTTPS模式的配置方法。通过这一方案，老旧家庭电脑可以继续发挥作用，同时为现有服务扩展功能提供了可能。

2025-10-14 23:58:54 1048

原创 OddTTS：基于EdgeTTS、GPTSovits等语音生成的API封装，支持Web前端+API接口

一个开源的TTS引擎API封装，支持EdgeTTS, GPT Sovits（非开箱即用，需要额外部署）,Bert-VITS2等等。

2025-09-14 23:00:39 659

原创 OddASR：基于FunASR的API封装，支持离线转写+流式转写

github上有好多FunASR的API封装，但是全是离线文件转写的，没有一个同时支持离线文件转写和流式转写的API封装项目，想了一下干脆直接把它开源出来吧。希望对有ASR需求的同学有帮助。

2025-06-09 18:54:23 2349

原创快速入手最新的Gemma 3n：一个手机、平板、笔记本皆可运行的多模态文本+图像+音频的全能模型

Google 把这玩意儿一出，好了，我又有得搞了。小落同学又要大改了。但是我又对我的小落同学有了更多的一些期待了。之前的ASR用了一些小模型，结果识别准确率太差；然后用白嫖的百度文心一言LLM API，它的上下文只有8K，稍长一点的记忆他就忘记。这下有了32K上下文并且全能的Gemma 3n，咱可以看来搞搞看，效果会是如何。加油！

2025-05-25 02:12:39 2257

原创 Three.js:经过一番痛苦的思想斗争，我还是放弃了3D虚拟人，转投2D

在过去的一段时间里，我花费了大量精力钻研three.js技术，期望能将小落同学的形象塑造为3D虚拟人，实现与用户的交互功能。为此，我对vrm/obj/fbx模型进行了反复调整，还结合mixamo的动作资源进行适配。然而，无论我如何努力，始终无法达到理想的效果。在实际展示中，模型与动作之间总是存在各种问题，比如部分动作出现模型撕裂现象，或是动作呈现出不自然的颤抖，这让我十分苦恼。经过五一假期的深思熟虑，我决定暂时搁置3D方案，转向2D领域寻求解决办法。

2025-05-04 16:17:00 855

原创 ASR引擎测试：FunASR，再给阿里点一个赞

凭良心讲，阿里在开源FunASR的时候是真的够诚意，很地道。FunASR这玩意儿TMD基本上就是一个商业化的东西直接开源出来给大家用了。

2025-04-27 13:40:33 2929

原创可能是最紧凑、最轻量级的ASR模型：Vosk实战解析

前面在我的笔记本上用FunASR和PaddleSpeech为小落同学整合了一下ASR的功能，但是发现在我的阿里云ECS上跑不动，由于是乎就想找一个最轻量级的ASR模型，让小落同学也可以用上免费白嫖的ASR功能。

2025-04-20 23:24:11 1696

原创 Dify + 知识库预研：性能、部署与测试全揭秘

Dify + 知识库预研：性能、部署与测试全揭秘

2025-04-15 23:02:12 1819

原创关于String转化的问题

现有一个文本文件里边内容如下：0x88;0xB2;0x01; 我把这个文本文件读出来后要把这些数字转换成一个char* szBuffer;szBuffer = (char*)malloc(3);szBuffer[0] = 0x88;szBuffer[1] = 0xB2;szBuffer[2] = 0x01;sscanf( token, "%x", &i );

2006-02-24 13:56:00 686

将TS流文件发送到以太网络上（源码）

一个小工具，将TS流文件发送到以太网络上。支持使用UDP或者RTP协议。根据TS流的PCR值跟踪时间同步发送。我用的GetTickCount进行发送时间同步，线程按照10毫秒进行轮回，按照Win32系统普通线程切换时间，应该可以保证到10毫秒左右的同步精度。但听人提过使用GetTickCount进行时间同步，长时间会有时间漂移现象，而且误差会逐渐累加，直到客户端缓冲溢出。对方提出的解决方案是使用GPS卫星时间同步... 个人以为GetTickCount是使用Win32底层的某个高精度时间结果。在微观上不是很精确，但是宏观上应该是很精确。我实际曾经使用这个工具，发送过同一个文件三天三夜，客户端使用VideoLan进行在线播放，缓冲设置300ms，没有发现VideoLan缓冲有溢出的情况。如果这种同步方式，长时间发送，确实有精度问题，希望有同志给出例证和解决方案(除了使用GPS卫星时间以外的方案...)。以便我改进。 demo中根据以太网通常的MTU值直接按7个TS包进行封装： SetGetTsPacketDataCB(GetTsPacketData, NULL, TS_PACKET_SIZE_MIN*7); 如果是其他网络类型，需要根据网络的MTU值调整TS包数量。

2009-11-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人