- 博客(75)
- 收藏
- 关注
原创 Whisper 生态全景:15 个开源项目,我全用过了
说到底,Whisper 生态虽然项目多,但大部分解决的是某一个特定问题——要么快,要么轻,要么有某个特殊能力。如果你的核心需求和我一样,是多语言 + 实时转录 + 线上部署WhisperX:综合能力最强,速度快、显存低、有时间戳,短期方案首选:纯推理加速引擎,轻量高效,适合做底层:长期性价比最高,但需要自己蒸馏多语言模型:LoRA 微调方案成熟,适合先提升中文效果再部署选项目不是选最好的,是选最合适的。你用的是什么方案?评论区聊聊。
2026-05-07 08:15:00
199
原创 0.1B参数跑TTS,8B参数超越30B模型:MOSS这波音频双杀,有点离谱
你敢信吗?一个0.1B参数的TTS模型,能在CPU上跑实时语音合成,MacBook Air单核就能流畅运行。更离谱的是,同一个团队还搞了个8B的音频理解模型,在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。OpenMOSS团队这一波,一个负责"说",一个负责"听",配合得也太默契了。
2026-05-06 08:30:00
378
原创 掏心窝分享:我做语音项目踩遍坑,整理的全套模型选型方案
英语ASR我首推英伟达开源的Parakeet V2,单纯支持英语,推理速度极快,准确率非常高,还支持时间戳,区分大小写,支持标点。因为语音这个领域吧,模型是真多,场景也是真杂,中文英文多语言,流式非流式,端侧云端,热词标点时间戳……如果你要在端侧部署呢,whisper.cpp是个很好的项目,它把Whisper集成到了安卓和iOS上面,而且给出了demo,你直接把demo拉下来就能构建属于你的APP了。你的场景是什么,你追求速度还是准确率,你部署在云端还是端侧,你需不需要热词标点时间戳,这些决定了你的选择。
2026-05-05 21:15:00
247
原创 这个国产 TTS 干了一件以前没人做到的事——把“哪个字读多久、哪儿停几毫秒“塞进了你的命令行
我打开导航,一个温柔的女声告诉我:“前方路口左转。听起来挺自然,对吧?但当我真正开车的时候,我发现一件特别小的事——我每次都要在脑子里再过一遍才能反应过来"左转"两个字到底说了没有。这两个字飘得太轻了,像一片落叶贴在整句话上。我开始留意。儿童跟读 App 在教孩子说"苹果",可它把"苹果"和前面的"请跟我读"挤成了一团。公众号留言区有人吐槽,验证码朗读把"三七九二一八"念成了一长串没有断句的彩票号码。
2026-05-05 09:45:00
389
原创 让Whisper不再瞎编:一招“对比解码“,WER暴降24.3%,速度还快了48%
如果你是做ASR落地的工程师,我强烈建议你把这个方法跑一下。核心代码应该不会超过50行——改改Whisper的解码循环,加一个对比loss,调一下权重,齐活。应用到其他自回归生成任务(LLM、TTS)探索更多"负样本构造"方式和投机采样结合,能不能再提速?这篇论文给我最大的启发是:有时候让模型变聪明,不是教它更多东西,而是教它"什么时候该闭嘴"。Whisper学会了对自己的幻觉说不——这个事情,可能比模型本身更有价值。参考论文。
2026-05-04 22:00:00
427
原创 微软把2.47G的语音模型压到670M,准确率几乎没掉,端侧ASR这事真要起飞了
我做了这么多年AI,最常被问的问题是:什么时候端侧大模型能真正用起来?我之前的答案一直是:再等等。但看完这篇论文,我觉得是时候改答案了。端侧ASR这事,不是"未来可期",而是"现在就能用"。云端ASR厂商,醒醒,护城河该填了。如果你是开发者,建议立刻去Foundry-Local扒一扒这套方案,能省你不少事。如果你是创业者,端侧语音应用的窗口期才刚刚打开。下一波端侧AI浪潮,就从语音识别开始。
2026-05-04 10:45:00
314
原创 FunASR-1.5 方言识别
我自己的感受是,这个功能的商业价值可能没有方言识别那么直接,但它的文化意义是很特别的。官话、吴语、湘语、赣语、客家话、闽语、粤语,全覆盖。团队构建了一套从先秦到近代的古诗词语音-文本对齐语料库,涵盖了《诗经》《楚辞》、李白杜甫的诗集、苏轼辛弃疾的词作,全是真人诵读的录音。就是你在一段录音里先说了句中文,突然蹦了句英文,又切回中文夹了个日语词,Fun-ASR1.5不需要你提前告诉它「接下来是英文」,它自己就能识别出来并且正确切换。开会的人,做会议纪要的人,做新闻采访整理的人,做法律笔录的人。
2026-05-03 23:15:00
200
原创 音频降噪的宝藏仓库,12种模型随便用
如果你正在做音频处理相关的工作,或者只是想给自己的录音降个噪,我强烈建议你试试这个项目。12种模型,总有一款适合你。而且,作者说了,这个仓库会持续更新,加入更多新的降噪模型。如果你觉得有用,给个Star吧。毕竟,这样实在的项目,值得被更多人看到。
2026-05-03 13:30:00
325
原创 一个完全离线的AI语音助手,体验居然这么好
坦率地讲,我之前一直觉得离线AI是个"玩具",不如联网的AI实用。但用了这个项目之后,我的想法彻底改变了。离线AI,不是"玩具",而是"未来"。你的数据,你做主。你不需要把隐私交给大公司,不需要担心服务商倒闭,不需要为每次调用付费。你只需要一台普通电脑,就能拥有一个完全属于自己的AI助手。这才是AI应该有的样子。如果你也对隐私、稳定性、成本有顾虑,如果你也想拥有一个完全属于自己的AI助手,不妨试试这个项目。
2026-05-02 21:30:00
387
原创 VoxCPM2:用一句话设计音色的语音合成革命
VoxCPM2 让我想起了一句话,“技术的进步,不是让专业的事情变得更专业,而是让专业的事情变得更普及。以前做语音合成,你得懂信号处理,得有录音设备,得找配音演员。现在你只需要会写一句话。这种门槛的降低,会释放出巨大的创造力。我不知道接下来会有多少人用 VoxCPM2 做出什么有意思的东西,但我很期待。如果你也对这个项目感兴趣,可以去 GitHub 看看,或者直接在 Hugging Face 上试试 Demo,说不定你会发现一些新的玩法。永远对世界保持好奇。
2026-05-02 14:00:00
759
原创 FishAudioS2-震撼实测
那种自然程度,跟我以前用过的「切换语言就换一个人」的体验完全不同,就像是一个会多国语言的人在用自己的母语自由切换。以前我觉得技术是一种壁垒,你掌握了我没掌握,你就领先我。但现在我越来越觉得,技术其实是一种平权的力量,它会让原本只有少数人能用得起的东西,变成每个人都能唾手可得的基础设施。就是你本来是抱着「又一个开源模型而已」的心态点进去的,结果玩了十分钟,我直接把耳机摘下来,盯着屏幕愣了几秒。我在演示里试了一段,「[whisper] 这是悄悄话,[excited] 现在我很兴奋,[sigh] 然后叹口气」。
2026-05-02 07:45:00
323
原创 600+语言零样本TTS神器来了!OmniVoice让AI配音进入新纪元
OmniVoice 的出现,标志着 AI 配音技术进入了一个新的时代:✅600+ 语言— 全球最广覆盖✅3秒克隆— 零样本声音复制✅40倍实时— 超快合成速度✅完全开源— 免费商用无限制不管你是内容创作者、开发者、还是AI爱好者,OmniVoice 都值得你尝试。论文: https://arxiv.org/abs/2604.00688。
2026-05-01 21:00:00
376
原创 AI 语音模型,终于可以装进你的手机了!
把"只能在服务器上跑"的语音 AI 模型,变成"能在任何设备上跑"的轻量级应用。如果你是开发者,想给自己的 App 加上语音识别、语音合成功能,但又不想依赖云端 API、不想付费、不想担心隐私问题——sherpa-onnx 就是最佳选择。如果你是普通用户,想体验"完全离线"的语音助手、实时字幕、语音输入——去下载那些基于 sherpa-onnx 的开源 App 试试,你会发现"AI 语音"原来可以这么轻、这么快、这么自由。
2026-05-01 12:15:00
360
原创 语音识别新王者!Cohere Transcribe 登顶开源榜首,准确率碾压 Whisper
准确率:5.42% 平均 WER,开源榜首速度:525 倍实时速度,比同级快 3 倍多语言:14 种语言,全面领先易用性:三行代码搞定,生态完善开源:Apache 2.0,拿来就用如果你还在用 Whisper,是时候试试 Cohere Transcribe 了。如果你正在选型语音识别方案,这个模型应该是你的首选。语音识别的新王者,已经来了。
2026-05-01 10:30:00
354
原创 这届年轻人的AI焦虑,到底在焦虑什么?
写到这儿,我想再说回开头那个问题:AI焦虑到底值不值得?我的看法是:焦虑本身是没用的。它既不会帮你多赚一分钱,也不会让你学会用AI。真正有用的,是冷静下来想一想:我的工作里,哪些环节可以交给AI做?我行业里,有什么痛点是AI可以解决的?网上有句被说烂了的话:「工具不会淘汰人,但会用工具的人会淘汰不会用的人。」道理是对的,只是被说太多遍,大家反而听不进去了。其实没那么复杂。不是所有人都需要去搞AI创业,但所有人都需要学会和AI一起工作。这不是「要不要」的问题,是「怎么做好」的问题。
2026-04-30 21:15:00
377
原创 AI应用开发者的四大底层能力:从“框架追逐者“到“系统性能力构建者“
有人说AI应用开发就是"换皮CRUD",和以前写Spring Boot调包没区别。对,也不对。日常操作确实像CRUD——注册工具、读取上下文、更新状态、压缩历史。你的核心引擎从确定性逻辑变成了概率性黑盒。表面相似,底层逻辑完全不同。能不能看穿这一层,决定了你是"Agent调包侠"还是"Harness工程师"。AI应用工程师的核心能力,是在不确定性之上构建确定性。你的核心引擎是概率性的,它会犯错、会幻觉、会跑偏。你的工程任务是在它周围建造一个系统,让最终交付的结果是可靠的、可预期的、可恢复的。上下文治理。
2026-04-30 08:15:00
377
原创 再也不用在“干净“环境里重新登录了!这款工具让AI直接接管你手头的浏览器
简单来说,它是一个 Chrome 插件 + 本地 MCP 服务器的组合。❌ 没有你的登录态❌ 没有你的浏览器设置❌ 没有你的书签和历史记录❌ 每次都要从头开始Chrome MCP Server 完全不同✅直接用你正在浏览的 Chrome——所有标签页、登录态、插件、设置全都在✅零额外资源占用——不需要再启动一个浏览器进程✅即刻开始工作——打开就能用,无需配置它让 AI 真正融入你的工作流,而不是强迫你去适应 AI 的"干净环境"。
2026-04-29 22:00:00
302
原创 Claude HUD:给你的 AI 编程终端装一块仪表盘
用 Claude Code 写代码,你最怕什么?不是报错——报错有日志可以查。最怕的是。等到系统自动压缩,之前建立的项目理解、讨论的方案、修改的记录,全部清零。你只能重新解释一遍背景,重新建立上下文。今天介绍一个插件——,专门解决这个问题。
2026-04-29 12:00:00
361
原创 出国旅游语言不通?这款开源神器让你无障碍交流
RTranslator 是一个个人开发者独立维护的开源项目,完全免费、零广告、不收集任何个人数据,开发者甚至没有自己的服务器。在「AI 翻译」这个被大厂和收费订阅占领的赛道上,能有这样一款高质量的开源替代品,实属难得。如果你有出行、跨语言工作或跨国交流的需求,RTranslator 绝对值得一试。觉得这个项目有用的话,也可以去 GitHub 给作者点一个 Star,支持一下独立开发者。
2026-04-29 07:45:00
338
原创 SSH远程连接 github/云效 的操作流程
这个命令是用来生成基于 Ed25519 算法的 SSH 密钥对(公钥 + 私钥),是 Git 等工具通过 SSH 协议免密码访问远程仓库(比如 GitHub/Gitee/GitLab)的核心操作。settings -> SSH and GPG keys -> New SSH key -> 粘贴生成的公钥 -> 起一个名字(如果是服务器就起用户名,比如tu) -> 添加。个人设置 -> SSH公钥 -> 粘贴生成的公钥 -> 起一个名字(如果是服务器就起用户名,比如tu) -> 添加。
2026-03-10 15:36:56
176
原创 claude code router 报错:“This model is not available in your region ”
就在快要放弃的时候,点开了 C:\Users\23349.claude-code-router\config.json 看了一下配置文件,结果发现里面的 PROXY_URL 字段为空,难怪出现这种问题,重新配置 “PROXY_URL”: “http://127.0.0.1:7890” 之后就没问题了。最近使用ccr(claude code router )的时候总是显示claude模型无法使用,前几天用的时候还好好的,折腾了一圈没发现原因,甚至又尝试了使用CC switch,结果还是报同样的错误。
2026-03-06 08:00:00
544
原创 用LangChain重构Function Calling:从手搓代码到流水线作业
上一篇刚把手动调用 Function Calling 的坑踩完,写了一堆 auto_functions 和 run_conversation,代码虽然能跑,但说实话,看着那一坨 JSON Schema 的转换逻辑还是挺累人的。今天折腾了一下 LangChain,发现这玩意儿确实能省不少事。它把那些繁琐的代码都封装好了,而且提供了一套很简洁的“链式调用”写法。把之前的代码重构了一遍,感觉清爽了不少。
2025-12-17 08:00:00
564
原创 PyInstaller打包报错:No graph was found in the protobuf
这个报错极具误导性,它让你以为是模型文件损坏,实则是路径编码或解析器实现的问题。在开发 Windows 桌面应用时,永远不要信任 C++ 底层库对中文路径的支持。使用 Windows 短路径(8.3 格式)是解决此类跨语言/跨库路径问题的“银弹”。
2025-12-16 07:15:00
1012
原创 中文同音字替换纠错系统技术实现
本系统是一个高性能的中文同音字/词纠错引擎,旨在解决中文语音识别(ASR)后处理或文本输入中常见的同音字错误问题。系统采用离线模型构建与在线实时推理相结合的架构,利用有限状态转换器 (FST)技术实现大规模规则的高效匹配与替换。代码位置实现步骤引入库: 使用pynini库,它是生成 FST 的核心工具。定义字符集 (Sigma):# 定义全集,utf8.VALID_UTF8_CHAR.star 表示任意合法的 UTF-8 字符串序列这是 FST 中的“通配符”概念,用于处理那些不需要替换的背景文本。
2025-12-15 18:01:12
1033
原创 大模型如何长出“手”?手撸一个Function Calling的本地调用Demo
最近在折腾大模型的Function Calling(函数调用),也就是让大模型能联网、能查库、能执行代码。以前觉得这东西挺神秘,其实拆解开来看,核心逻辑并不复杂。正好手头有一段刚跑通的代码,本来是记在Jupyter里的,现在整理记录一下。这段代码用的是本地部署的Qwen3(通义千问)模型,配合OpenWeather的API查天气。下面就顺着代码逻辑,把这套“让大模型通过外部工具获取信息”的流程给捋一遍。这是模型要调用的“手”。它本质就是一个普通的Python函数。"""查询即时天气函数。
2025-12-15 07:45:00
820
原创 Langchain学习笔记之模型的输入与输出
Format:即指代Prompts Template,通过模板化来管理大模型的输入;Predict:即指代Models,使用通用接口调用不同的大语言模型;Parse:即指代Output部分,用来从模型的推理中提取信息,并按照预先设定好的模版来规范化输出。Format传统上我们创建提示词是通过手工编写来实现的,在这个过程中会利用各种提示工程技巧,如Few-Shot、链式推理(CoT)等方法,以提高大模型的推理性能。然而,在应用开发中,一个关键的考量是提示词不能是一成不变的。
2025-12-01 08:30:00
952
原创 RAG开发基础——RAG的落地场景
大模型很强,但当它遇到企业的真实场景时,总会出现“懂了,但没完全懂”的尴尬。于是,RAG(Retrieval-Augmented Generation)登场——它让模型不仅会生成,还能基于真实资料回答。这一章,我们聊聊 RAG 在八个典型场景中的实际用法。
2025-11-11 12:30:00
736
原创 RAG开发基础——微调 和 RAG 方案选型
很多人喜欢争论 RAG 和微调孰优孰劣,其实没必要。RAG 是“外脑”,微调是“内化”。真正的成熟系统,往往两者兼用——让模型既能查,又能懂。微调是为了“减少思考错误”;RAG是为了“增加事实正确”。当我们能平衡这两者时,AI 才算真正进入“能用”的阶段。
2025-11-11 09:00:00
447
原创 使用 Ollama 替代 OpenAI API Key —— 免费运行本地大模型
这样 Ollama 会在后台持续运行,不会阻塞 Notebook。这种方式非常适合 本地开发、离线测试 或 低成本项目原型搭建。在开发中我们常使用 OpenAI 的 API,但当。一个简单且免费的解决办法是 ——时,程序会报错中断。
2025-11-11 00:36:19
713
原创 RAG开发基础——RAG框架演进之路
传统 RAG 就像一个刚上岗的实习生:查得快,但经常查错;记得多,却用不准。Advanced RAG 更像一个老练的助理:懂上下文、懂重点、懂取舍。它不只是搜资料,而是在理解问题、筛选信息、优化回答这整条链路上都做了升级。传统 RAG 让模型“能查资料”;Advanced RAG 让模型“能理解资料,还能正确地说出来”。
2025-11-10 11:45:00
714
原创 RAG开发基础——RAG落地经历的那些坑
检索完之后,你得到的是“候选结果”,但这些结果的顺序可能并不合理。这时候,Reranker 上场了。比如用或可以重新计算 query 和文档的匹配程度。很多时候,好用的 Reranker 能弥补 embedding 的一半错误。它的作用就像搜索引擎里的 PageRank,帮你从“能找到”变成“找到最好”。很多人以为 RAG 的难点在模型,其实在工程细节。从清洗、切割、embedding,到数据库、检索、重排、验证,每一环都在决定最终的智能程度。
2025-11-10 08:15:00
675
原创 Extension activation failed, run the ‘Developer: Toggle Developer Tools‘ command for more informatio
无奈卸载重装,还是不行。把用户目录下的.cursor删了也不行,最后没辙了,搜索整个电脑上关于cursor的一切,然后全部删掉,删掉前面说的文件之后,再搜索发现大多数关于cursor的文件都在 "C:\Users\23349\AppData\Roaming\Cursor"里面,果断把这个也删了,然后再重装cursor,把python扩展下载好就好了。总结下来就是,要把关于cursor的一切删干净,尤其是"C:\Users\23349\AppData\Roaming\Cursor"目录要删掉。
2025-10-15 19:46:22
244
原创 深入解析端到端语音识别三巨头:CTC、AED与Transducer
近年来,随着深度学习的飞速发展,自动语音识别(ASR)技术也迈入了“端到端”(End-to-End, E2E)的时代。与传统的“声学模型+发音词典+语言模型”的割裂式框架不同,端到端模型将整个语音识别过程统一为一个单一的神经网络,直接将原始的语音信号(Audio)映射到文字序列(Text)。CTC和Transducer。本文将作为一篇技术博客,详细剖析这三种主流E2E-ASR模型的原理、优缺点、应用场景,并进行横向对比,帮助你深入理解它们的内在联系与核心差异。
2025-10-14 12:32:26
1588
原创 主流大模型部署工具超详细对比
场景决定选择,没有最好的工具,只有最合适的工具。个人玩票/快速验证:Ollama是你的不二之选。本地运行(无N卡/Mac):llama.cpp能给你带来惊喜。通用生产级API服务:vLLM是当前社区最主流、性能最强的选择之一。TGI如果你深度绑定Hugging Face生态,它会更顺手。复杂的生产级推理(Agent/CoT):SGLang能在提供顶级性能的同时,显著简化你的业务代码。追求极致性能的“氪金玩家”:是你在NVIDIA硬件上的终点。
2025-10-12 23:41:35
1556
原创 四川话ASR-微调-语音识别-Paraformer-Large
本项目基于阿里巴巴达摩院的预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。
2025-09-29 10:54:24
1591
原创 安卓开发日志——入门准备工作
最近又开始看安卓开发了,对于我这个新手来说,一切都是从头摸索。今天是开始学习的第一天,下载好了Android Studio,尝试跟着教程跑了一个demo,下面是练习过程中学习到的一些经验,总结一下。不管学C++还是学什么,我的第一个习惯就是学会调试,因为这样才能定位错误。对于安卓开发,一般通过logcat来调试,如果报错的话,java的代码一般不用看,要找自己项目里代码报错的地方,直接点击链接就能跳转到指定的报错行。真机调试:在设置里打开开发者选项,打开USB调试。
2025-07-29 17:50:06
953
原创 pytorch格式转华为昇腾的om格式
请在服务器执行npu-smi info命令进行查询,在查询到的“Name”前增加Ascend信息,例如“Name”对应取值为xxxyy,实际配置的<soc_version>值为Ascendxxxyy。pytorch转onnx比较简单,教程有一大堆了,下面给出 onnx 转 om 格式的过程。–input_shape:执行推理时模型输入数据的shape,这个在转onnx的时候也需要。具体的转换过程为:pytorch => onnx => om。–model:model的ONNX模型文件存储路径。
2025-07-29 15:53:50
773
原创 解决 C++ 中 debug 无法命中断点的问题
最近在linux中进行debug,结果一直无法命中断点。找了各种帖子都试了,都没用,最后还是跟着ChatGPT一步一步验证才找到具体的原因,所以还得是靠 AI 啊。C++程序进行debug无法命中断点,具体表现就是每次点击 debug 按钮之后,程序直接执行完毕,尤其是红色的断点在程序执行过程中会变成空心的白色断点。升级gdb,这个已经有很多现成的解决方案了,这里只提供解决思路,具体可自行google。说白了就是gdb版本太低了。强制使用 DWARF-4。
2025-07-22 15:12:01
356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅