- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 用 OpenSpec 规范 AI 辅助开发:让 AI 准确理解你的需求 --
OpenSpec是一个规范化AI辅助开发的框架,通过标准化流程大幅减少AI理解偏差。它将开发流程分为提案→执行→归档三个阶段:提案阶段用结构化模板明确需求;执行阶段AI按审核后的任务清单生成代码;归档阶段记录变更形成规范。相比传统AI编程,OpenSpec使代码可用率从30%提升至80%以上。工具支持中文版本,通过npm安装后即可使用斜杠命令快速创建提案、执行变更和归档记录。关键优势在于结构化输入减少歧义、可审查确保理解正确、版本管理方便回溯。建议结合代码审查使用,并保持提案小而精、定期归档。
2026-04-06 23:14:18
402
原创 用 OddTTS + oh-my-openagent 从0实现有声书功能
摘要 本文介绍了基于OddTTS开源项目开发的有声书转换工具的实现过程。该工具可将10万字技术电子书转换为自然流畅的人声有声书,具有以下特点:支持5万字文本转换(约2.5小时音频)、纯CPU推理、8种音色切换、中英混合朗读及断点续传功能。 实现过程分为多个阶段:首先通过Metis进行需求分析,明确功能需求和潜在风险;然后由Prometheus制定详细实现计划,划分文本预处理、TTS服务集成等5个模块;接着通过Explore分析OddTTS源码;最后由Sisyphus协调各模块开发,包括文本分割、TTS客户端
2026-04-05 19:28:12
407
原创 OddTTS更新:十年前老笔记本以纯CPU跑中英混合语音合成
摘要:文章介绍了两种轻量级语音合成模型Kokoro和MeloTTS的测试结果,最终选择Kokoro v1.1作为小落同学项目的语音合成方案。详细说明了OddTTS的安装使用、API调用方法、性能测试数据及注意事项,包括首次运行耗时约42.8秒,后续合成11字文本约1.6秒。同时提供了模型下载、常见问题解决方案和系统环境要求,特别感谢路遥对中英混合实现方案的帮助。(149字)
2026-04-04 22:03:22
406
原创 轻量级TTS:MeloTTS纯CPU跑语音合成指南
MeloTTS是一款轻量级开源语音合成工具,支持多语言混合输入,能在普通CPU上实现实时语音合成。相比云端API方案,它具备离线运行、隐私保护、成本低廉等优势,特别适合智能设备、有声书制作等技术场景。该工具基于VITS2架构,支持中文、英文等多种语言和口音,提供Python API和命令行两种调用方式,MIT许可证允许免费商用。安装过程简单,仅需克隆仓库、配置环境即可快速使用,是边缘计算和本地化语音合成的理想选择。
2026-03-29 21:08:18
397
原创 OddTTS:加入Kokoro语音合成支持,完全纯本地CPU跑语音合成
前两天针对轻量级TTS引擎Kokoro做了一些测试( https://mp.weixin.qq.com/s/xKBLfAkfImwHrjYIml0KuA ),测试下来发现效果居然挺好的,而且自带8种音色的支持,纯CPU跑,速度还快,测完了我就停不下来了,当时就想把它整合到我的[OddTTS项目](https://github.com/oddmeta/oddtts "OddTTS项目"),今天周末终于有空,于是就简单搞了一下,现在已经在我的[小落同学](https://www.oddmeta.net/proj
2026-03-28 17:26:56
259
原创 OpenClaw七大配置:从SOUL、USER、AGENTS到MEMORY
七个配置文件:SOUL、USER、AGENTS、HEARTBEAT、IDENTITY、BOOTSTRAP、TOOLS,三种使用场景:个人助手、个人知识库、数字分身(跟我的小落同学一样,复刻一个数字版本的你自己),加上 MEMORY 让你的 OpenClaw 从「傻白甜」变成「专属智能体」
2026-03-23 23:04:35
703
原创 OddAgent:从0到1打造你自己的智能家居语音助手
想不想拥有一个完全属于你自己的"小爱同学"或"小艺"?今天我来教你用开源项目 OddAgent,从零开始搭建一套智能家居意图识别系统。
2026-03-22 20:46:58
373
原创 白嫖党福音:如何给 OpenClaw 装上免费联网搜索
我花了一个下午,调研了市面上所有的免费搜索方案,从阿里云百炼的免费额度,到 Tavily 的每月限额,再到 Google Serper 的试用陷阱。最终,我锁定并成功实施了一个**完全免费、无需注册、纯本地运行**的终极方案:**DuckDuckGo + 自建 Python 脚本**。
2026-03-18 23:58:00
1254
原创 把你的MCP Server部署到公网,让阿里云上的应用来访问和使用
这个周末的任务就是:<font color=red>**把原先一直在我本地电脑上跑的小落同学的MCP Server部署到公网,并让阿里云上的小落同学来访问和使用。**</font>
2026-02-02 18:29:53
609
原创 手把手带你用扣子实现一个完整的Skills:网页书签
手把手教你在扣子平台上实操SKILL,从创建SKILL开始,到调试优化,部署上线,以及如何在扣子上使用这个SKILL,包你一看就懂,一学就会。
2026-01-24 23:24:59
1281
原创 手把手带你用OpenCode实现一个完整的Skills:网页书签
手把手带你用OpenCode实现一个完整的Skills:网页书签。用OpenCode Desktop完整演示如何实现一个书签功能的Skills,而且可以通过MCP协议接入外部服务,包你一次学会。
2026-01-24 02:40:19
2137
原创 开源全能意图、指令识别框架 OddAgent 更新
为了避免日后大家在授权问题上出现顾虑,我特别将 OddAgent 的授权从GPL改成了MIT。
2026-01-19 18:43:18
574
原创 OddAgent:一个通用的意图、指令识别框架
想自己动手来手搓一个完全属于你自己的“小爱同学”、“小艺”吗?如果有你这么一个想法,而又不知道该如何开始的话,那么[OddAgent](https://pypi.org/project/oddagent/ "OddAgent")项目可以成为你非常容易上手的开源项目。
2026-01-07 09:14:23
851
原创 【有手就行】利用大模型批量生成数据集
之前用的更多的是利用ChatGPT来生成数据,但是为了写这篇文章,我又专门用千问、文心、豆包、ChatGPT走了一遍完整流程。这篇文章主要有用的就是生成数据的提示词,顺便用这个实例介绍对比一下几个主流模型的表现,供大家参考。
2026-01-01 01:14:27
766
原创 【有手就行】SWIFT:花20分钟把大模型的名字变成你的名字
你有没有问过大模型`“你是谁”`?问了的话,拿到的答案清一色都是大模型厂商的名字。而如果你自己部署了一个模型的话,通常都希望有人在你的应用里问你是谁的时候能给出一个`“你的答案”`。**<font color=red>这篇文章就是干这个事情的,20分钟让大模型的名字变成你自己的名字。</font>**
2025-12-20 22:44:36
701
原创 【有手就行】LoRA:用你自己的数据来微调大模型,让大模型真正懂你
在现在这个时代,完全可以说,大部分的技术都是没有什么价值的,因为大部分的技术都是**有手就行**。真正的价值都在数据,而且最有价值的数据往往都是一个个的专业领域的数据,决定大模型微调效果的是数据,决定你整个产品成败的也是数据,这个事情一定要搞清楚。
2025-12-14 22:11:51
912
原创 【有手就行】自己花20分钟从0开始训练一个“大模型”
本文介绍了一个轻量级中文GPT模型训练项目GPT_teacher-3.37M-cn,该模型仅3.37M参数,可在普通CPU上20分钟内完成训练。文章详细展示了从环境准备、分词器构建到训练测试的完整流程,重点解析了模型采用的RMSNorm、RoPE位置编码等优化技术。虽然小参数模型存在局限性,但该项目为理解大模型训练提供了实践机会。最后还探讨了大模型幻觉成因及使用时的调参技巧,帮助初学者快速入门大模型训练与应用。
2025-12-06 23:51:07
392
原创 OddAgent:轻松手搓一个你自己的“小艺”、“小爱同学”
想自己动手来手搓一个完全属于你自己的“小爱同学”、“小艺”吗?如果有你这么一个想法,而又不知道该如何开始的话,那么OddAgent项目可以成为你非常容易上手的开源项目。
2025-11-09 22:14:17
692
原创 AI编程:国内外主流大模型的集体翻车
摘要:作者尝试用多个AI大模型(包括TRAE、通义灵码、豆包等)生成"OddMeta"的ASCII艺术字,但无一成功。尽管反复修改提示词,各模型要么输出错误文字,要么声称已修改但实际未改。这一简单需求耗费数小时未果,让作者对当前AI的实际能力产生质疑,最终愤而记录这次失败经历。
2025-10-19 22:05:32
455
原创 frp:让你家里的电脑也可以被公网访问
本文介绍了如何利用FRP工具实现内网穿透,将家庭电脑的服务通过阿里云ECS暴露到公网。作者选择了FRP作为解决方案,详细记录了在Linux服务器和Windows客户端的配置步骤,包括安全组设置、防火墙配置、FRP服务端和客户端的安装与参数调整。文章重点演示了HTTP模式的成功配置过程,并简要提及了HTTPS模式的配置方法。通过这一方案,老旧家庭电脑可以继续发挥作用,同时为现有服务扩展功能提供了可能。
2025-10-14 23:58:54
1028
原创 OddTTS:基于EdgeTTS、GPTSovits等语音生成的API封装,支持Web前端+API接口
一个开源的TTS引擎API封装,支持EdgeTTS, GPT Sovits(非开箱即用,需要额外部署),Bert-VITS2等等。
2025-09-14 23:00:39
652
原创 OddASR:基于FunASR的API封装,支持离线转写+流式转写
github上有好多FunASR的API封装,但是全是离线文件转写的,没有一个同时支持离线文件转写和流式转写的API封装项目,想了一下干脆直接把它开源出来吧。希望对有ASR需求的同学有帮助。
2025-06-09 18:54:23
2332
原创 快速入手最新的Gemma 3n:一个手机、平板、笔记本皆可运行的多模态文本+图像+音频的全能模型
Google 把这玩意儿一出,好了,我又有得搞了。小落同学又要大改了。但是我又对我的小落同学有了更多的一些期待了。之前的ASR用了一些小模型,结果识别准确率太差;然后用白嫖的百度文心一言LLM API,它的上下文只有8K,稍长一点的记忆他就忘记。这下有了32K上下文并且全能的Gemma 3n,咱可以看来搞搞看,效果会是如何。加油!
2025-05-25 02:12:39
2236
原创 Three.js:经过一番痛苦的思想斗争,我还是放弃了3D虚拟人,转投2D
在过去的一段时间里,我花费了大量精力钻研three.js技术,期望能将小落同学的形象塑造为3D虚拟人,实现与用户的交互功能。为此,我对vrm/obj/fbx模型进行了反复调整,还结合mixamo的动作资源进行适配。然而,无论我如何努力,始终无法达到理想的效果。在实际展示中,模型与动作之间总是存在各种问题,比如部分动作出现模型撕裂现象,或是动作呈现出不自然的颤抖,这让我十分苦恼。经过五一假期的深思熟虑,我决定暂时搁置3D方案,转向2D领域寻求解决办法。
2025-05-04 16:17:00
850
原创 ASR引擎测试:FunASR,再给阿里点一个赞
凭良心讲,阿里在开源FunASR的时候是真的够诚意,很地道。FunASR这玩意儿TMD基本上就是一个商业化的东西直接开源出来给大家用了。
2025-04-27 13:40:33
2891
原创 可能是最紧凑、最轻量级的ASR模型:Vosk实战解析
前面在我的笔记本上用FunASR和PaddleSpeech为小落同学整合了一下ASR的功能,但是发现在我的阿里云ECS上跑不动,由于是乎就想找一个最轻量级的ASR模型,让小落同学也可以用上免费白嫖的ASR功能。
2025-04-20 23:24:11
1651
原创 关于String转化的问题
现有一个文本文件里边内容如下:0x88;0xB2;0x01; 我把这个文本文件读出来后要把这些数字转换成一个char* szBuffer;szBuffer = (char*)malloc(3);szBuffer[0] = 0x88;szBuffer[1] = 0xB2;szBuffer[2] = 0x01;sscanf( token, "%x", &i );
2006-02-24 13:56:00
683
将TS流文件发送到以太网络上(源码)
2009-11-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅