- 博客(1135)
- 收藏
- 关注
原创 Grok 发布语音 API,支持实时 X 数据搜索;腾讯发布混元实时世界模型 1.5,开放个人体验丨日报
Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司,致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」,《玩具总动员》中的角色来到我们的世界。
2025-12-19 10:54:28
351
原创 硬件日招募!「对话式 AI+硬件」系列活动@深圳丨RTE Meetup+TEN Workshop
step1:部署自己的 server,修改 LLM、TTS 等参数来定制自己的 Voice Agentstep2:尝试接入不同的 example 来体验更多 Voice Agent 场景。
2025-12-19 10:34:41
540
原创 被低估的前置语音技术——为什么你的语音 AI 总「听不清」?一篇文章讲清楚 3A、VAD 和声纹识别丨社区来稿
对话式 AI 语音交互的「听清、听准、不添乱」,是由前置音频处理组成的一套「流水线作业」:1.3A 先「净化」音频:AEC 去掉回声、ANS 滤除噪声、AGC 稳定音量,输出干净的音频信号;2.VAD 再「筛选」人声:精准识别音频中「人声的开始(SOS)和结束(EOS)」,避免静音 / 噪声占用后端资源,同时把控对话节奏;3.声纹识别最后「锁定」主讲人:过滤无关人声干扰,确保系统只响应目标用户。这三步环环相扣,共同构成了语音交互的「地基」。
2025-12-17 15:33:55
652
原创 商汤SekoTalk实时数字人:25fps+3.5s延迟;Looki L1国内首发价1499元,将实时世界数据转化为上下文丨日报
我们欢迎更多的小伙伴参与。
2025-12-17 15:19:53
708
原创 CosyVoice3 和 Fun-ASR 开源轻量版;Gemini 原生音频模型升级,函数调用更准确丨日报
Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中,通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩,显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现,3.0 中集成的智能体能力,将直接赋能更高效的企业协作和自动化流程。
2025-12-16 17:44:51
668
原创 INNOSpark Vol.4 开放招募:路演直通 VC,入驻智慧谷,抱走算力券丨社区伙伴活动推荐
在这个由AI浪潮主导的时代,创新需要的不仅仅是技术,更需要高能级的生态支持和精准的资本助推。我们在此正式发布邀请,寻找最具技术创新性和市场的AI硬科技项目,共同在杭州这片创新热土上,实现同频共振,生态共生。
2025-12-16 17:23:42
512
原创 Runway 发布世界模型,模拟实时环境和可交互数字人;Qwen3-Omni 升级,视频语义理解与音视频同步能力持续优化丨日报
我们欢迎更多的小伙伴参与。
2025-12-13 10:04:20
699
原创 Vibe Coding 你应该更激进:用最 SOTA 的模型,赚最高的时薪|编码人声
编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。在 RTE 2025 大会现场,《编码人声》召集 3 位身处 AI 编程浪潮不同位置的嘉宾——月之暗面开发者关系负责人、Vibe Friends 社区的发起人、Rokid 开发者生态负责人——同台拆解 AI 编程的真实生产力,探讨 Vibe Coding 的真相:AI 编程不会取代程序员,但会无情淘汰「仅会编码」的执行者。
2025-12-11 09:39:41
875
原创 智谱开源 GLM-ASR 系列语音识别模型;Pebble 发布智能指环 Index 01:本地语音转录与指令执行丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。
2025-12-11 09:26:45
1206
原创 深度研究:语音 AI 的「iPhone 时刻」,一个价值 835 亿美元的机会正在到来丨社区来稿
以下文章来源于宇宙杂菜饭 ,作者康师傅写在前面:为什么我要深度研究语音AI?过去两年,作为创业者和个人投资者,我一直在思考:AI时代,普通人的价值到底在哪?答案都指向 “真实体验” 与 “真实感受”。但如何将它们有效获取并转化为产品或服务创新?2023-2024年,我回归咨询行业,与上百位来自各行各业的企业家和创业者交流,发现一个残酷现实:“网上90%的评论让人怀疑真假,问卷调研正沦为羊毛党的游戏。”消费者分不清真实反馈,创业者面对调研结果雾里看花。这种信任危机正在摧毁整个在线评价与用户调研体系。语音,才是
2025-12-10 09:56:20
886
原创 活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!
*全球开发者先锋大会 (Global Developer Pioneers Summit) **源自于世界人工智能大会(WAIC),作为 WAIC 聚焦科技和人才力量的重要板块,特别关注青年科学家与青年开发者的成长,搭建与政策制定者深入对话的桥梁,促进科研与政策的双向互动,已成为全球开发者领域的顶尖盛会与技术风向标。2025 全球开发者先锋大会暨国际具身智能技能大赛将于 2025 年 12 月 12 日至 14 日在上海浦东举办。大会由传统大会升级为具身智能产业嘉年华,由「一个引擎、四大场景」构成。
2025-12-09 11:57:55
681
原创 Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。
2025-12-09 11:34:50
588
原创 球星 C 罗投资 AI 初创 Perplexity;微软开源 VibeVoice-Realtime,低延迟流式输出丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。
2025-12-05 23:14:09
867
原创 构建拥有记忆的端到端实时语音助手:TEN Framework + memU 教程丨社区来稿
实时语音模型让我们可以轻松构建能即时响应的语音助手Agent。但如果想让一个语音助手真的有“用”,仅仅能听和说还不够——它必须。在本教程中,你将使用构建一个具备与的智能Agent,它可以记住和你发生的一切对话内容。基于本教程的实时语音 + 记忆 Pipeline,你可以将 Agent 扩展为:AI 伙伴 / 情感陪伴 Agent语言学习或口语练习 Tutor客服 / 销售语音 AgentVTuber / 虚拟角色互动 Agent外呼语音 Agent… …
2025-12-05 22:47:55
664
原创 Meta 挖角苹果设计师,重塑 AI 硬件交互;健康追踪应用 Healthify 升级 AI 助手:实时语音与摄像头交互丨日报
我们欢迎更多的小伙伴参与。
2025-12-05 20:17:54
648
原创 Kyutai团队创立新语音AI公司Gradium,融资7000万美元;AWS端到端语音模型升级:多语言切换跨模态交互丨日报
我们欢迎更多的小伙伴参与。
2025-12-04 20:37:05
791
原创 米哈游联创推出可对话「猫猫」AI,具备情绪与独立思考;微软研究发现空间音频可将 AI 同传理解度翻倍丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。
2025-12-03 13:48:27
887
原创 Step-Audio-R1:音频深度推理模型;Soul 冲刺港交所,「AI+沉浸式社交平台」,累计注册用户达 3.9 亿丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。
2025-12-02 10:05:44
751
原创 Nari Labs 更新 TTS 模型 Dia2,将推出语音到语音引擎;谷歌或重启 AI 眼镜,最快明年四季度发布丨日报
我们欢迎更多的小伙伴参与。
2025-11-29 16:46:59
715
原创 全球首个语音 AI 广告平台问世;Sam Altman 与 Jony Ive:合作新硬件将「如湖畔山间小屋般平静」丨日报
我们欢迎更多的小伙伴参与。
2025-11-28 18:42:52
652
原创 活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
声网博客www.shengwang.cn/blog/ 正式启航啦!这是一个聚焦实时互动(RTE) × 对话式 AI(Conversational AI) 的内容空间。我们关注技术背后的Why,探讨应用场景的What if,分享实战经验的How better。在声网博客,我们希望呈现:技术解析:从原理到落地的深度剖析。应用创新:实时互动与对话式AI 如何重塑场景。实战经验:工程师世界里的技术挑战与解法。趋势洞察:对未来技术范式的思考。
2025-11-28 18:25:15
850
原创 2024年-2025年开源语音数据汇总:数十万小时多语种、儿童老人语音、医疗健康等(截止2025年11月)
本文转载自「乐百一家」,如果你关注语音模型和算法,这一个不容错过的宝藏且高产的公众号。最近两年开源数据越来越多,大家也意识到,无论是语音识别、语音合成,还是情感分析、多模态交互,高质量的数据集都是技术进步的基石。今天为大家整理了 2024-2025 年最新发布的开源语音数据集,涵盖中文、英文、多语种等多个方向,每个数据集都附上了直接下载链接,方便大家学习和研究。另本文遗漏部分,欢迎大家在文末评论,后续会动态更新整理到一起,做成专栏的形式,方便大家查阅。
2025-11-27 11:26:39
887
原创 Vibe Coding 的爱与恨:AI 开发流程设计和工程哲学丨开发者工具专场@RTE2025 回顾
—TTS(文本转语音)环节做了大量投入,力求在这个可控的环节做到极致。MiniMax 在 TTS 方面取得了可观地位(
2025-11-27 11:03:52
1051
原创 为实时智能体而建的 AI Infra丨Real-Time AI Infra 技术专场@RTE2025 回顾
在本届 RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了为什么超低延迟的实时 AI 是实现人机交互无缝融入日常生活的关键。从推理加速、流式模型设计,到高并发调度,都对底层设施提出了极限挑战。硅基流动联合创始人、Baseten Voice AI 负责人、元始智能 COO等技术专家、开发者和创业者,共同拆解 AI 的基础设施和新逻辑、分享他们在各自领域的实践经验和独到见解。TEN Framework 的 creator和硅基流动联合创始人分别主持了活动主题分享和圆桌讨论环节。
2025-11-26 09:48:22
987
原创 AI 客服公司 Sierra ARR 破 1 亿美元;育碧推出 AI 语音游戏《队友》:语音指令掌控战局,NPC 即兴互动丨日报
我们欢迎更多的小伙伴参与。
2025-11-25 11:05:40
1004
原创 声网 CEO 赵斌:对话式 AI 加速 RTE 进化,实时互动步入万亿分钟时代
在 10 月 31 日召开的声网 Convo AI & RTE 2025 第十一届实时互联网大会主论坛上,声网创始人兼 CEO 赵斌发表了题为《对话式 AI:实时互动的新篇章》主旨演讲。,标志着实时互动(RTE)正式进入全新的规模化应用阶段。今年 8 月,WebRTC 的全球搜索量出现了前所未有的激增,充分印证了开发者和行业对 RTE 技术的新一轮关注。随着强大的对话式 AI 工具进入市场,为助力企业和开发者抓住这一机遇,声网在大会上正式发布了,为行业提供了一套系统的实践指南。
2025-11-25 10:44:35
710
原创 GPT5.1 告诉你如何与电脑对话控制一切软件:复现 Caddy(YC F25)的愿景丨社区来稿
只把“压缩后的语义信息”发给服务器,而不是裸截图/全文。
2025-11-20 22:18:06
761
原创 AI 语音转贴纸,儿童打印机 Stickerbox 融资 700 万美元;Spatial AI 发布第一人称真实世界数据集丨日报
( @APPSO)
2025-11-19 19:47:16
938
原创 在 RTE2025 大会,我看到了 AI 语音如何让机器学会「与人相处」丨社区来稿
AI语音技术正从“工具性”走向“关系性”。从会陪伴的芙崽Fuzozo,到能教学的LOOKEE,再到帮助企业洞察用户的ValidFlow.AI,这些产品不再强调技术的强大,而是聚焦于如何让AI更懂人心。技术最终要为体验服务。当AI学会了倾听与对话,它不再只是执行命令的工具,而成为我们生活中有温度的伙伴。这或许就是对话式AI最美好的前景——不是取代人类,而是以更自然的方式与人“相处”,让技术真正服务于人的情感需求。我相信,我们迎来的将是一个更有温度的数字未来。
2025-11-19 18:11:54
970
原创 不只做语音,ElevenLabs 推出图像和视频生成平台;博通推出语音 AI 芯片,实现端侧 TTS 和实时翻译丨日报
我们欢迎更多的小伙伴参与。
2025-11-19 17:59:45
672
原创 大模型语音呼叫智能体「云蝠智能」完成 A+轮数千万融资丨社区成员项目
云蝠智能现已完成了由金沙江创业投资领投的 A+ 轮融资,鞍羽资本担任独家财务顾问。作为国内第一批直接采用大模型从事智能语音客服的企业,云蝠智能其全栈自研的「神鹤大模型」支撑着语音智能体在 3-5 分钟内快速构建上下文对话能力。云蝠智能不仅是「超音速计划 2025·Voice Agent Camp」的优秀学员,更在刚结束的 RTE 2025 年度 Demo Day 中脱颖而出,位列三强。RTE 开发者社区作为云蝠智能在创业征途中的重要陪跑者和成长伙伴,一路见证了其技术产品的迭代升级与融资里程碑。
2025-11-18 08:05:48
652
原创 从「跨模态思维链」到「物理 AI 数据闭环」:下一代多模态技术和落地丨多模态技术专场@RTE2025 回顾
商汤科技多模态交互产品负责人路少卿发现,即使是市面上最新的模型,在处理涉及视觉理解、空间认知和复杂图文推理的任务时,也表现出明显的缺失。并提出了商汤未来必须攻克的方向——从文本推理到原生融合的统一多模态大模型。目前的多模态模型依然停留在 VLP(视觉语言预训练)+ LLM的 Merge 阶段(即 VQA 任务),缺乏真正原生融合后产生的跨模态思维链推理能力。商汤的核心路径是追求统一深度的多模态大模型,目标是实现理解与生成融合统一,并激活类人的多模态思维链能力。针对图文交错的推理难题,商汤构建了。
2025-11-18 07:56:03
776
原创 灵宇宙获 2 亿新融资,要做 AI 世界操作系统;Vogent :自然语言描述生成语音智能体丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-17 22:52:24
736
原创 文心大模型升级 5.0,支持全模态输入与输出;Google SIMA 2:在虚拟 3D 世界交互、推理和学习丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-15 10:28:49
870
原创 社区来稿丨RTE 大会带给我的 AI Agent Infra 启发
Runtime、模块化、测试、模板化——这些决定了一个系统能否“持续运行”,而不仅仅是“能运行”。: “AI 系统的不可控性,意味着独立模块的测试可能无法捕捉链路级的漂移。一个真正工程化的 Agent Infra, 不该是一条死板的管线,而应是一组可以拼接的“积木”。这篇文章,我想聊聊我从这次演讲里得到的Agent Infra启发—— 包括 Runtime、模块化、测试与架构设计的思考。推理在 Python,音视频在 C++,交互在 JS—— 每一次跨语言通信(IPC),都是延迟与性能的代价。
2025-11-15 10:12:24
606
原创 主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾
赵维奇认为最终的边界感落在了「懂你、懂场景、懂用户」上,
2025-11-13 22:29:16
1277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅