RTE开发者社区-CSDN博客

原创 OpenAI SDK 上新 RealtimeAgent；OpenAudio S1 语音生成模型：语调情感标记，精确控制风格

我们欢迎更多的小伙伴参与。

2025-06-04 22:36:10 340

原创 11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态；通义公布空间音频生成模型 OmniAudio

我们欢迎更多的小伙伴参与。

2025-06-03 19:34:00 486

原创今年夏天，最不该错过的一场 AI 聚会

那就是 AGI Playground。Founder Park 与 22 个 AI 创业社区、开发者社区、媒体、VC 首次串台联动。和去年一样，RTE 开发者社区会以「RTE Open Day 」系列活动的形式，深度参与到这场 AI Builder 的聚会里。在公布完整攻略前，先了解社区都准备了哪些活动等待你参与，更关键的是，抓紧锁定早鸟票！

2025-05-30 18:28:31 584

原创开源 TTS 模型 Chatterbox：支持实时合成，0.5B 规模；Odyssey：实时互动视频，30 帧/秒流式传输丨日报

我们欢迎更多的小伙伴参与。

2025-05-30 17:54:22 1115

原创 Kyutai 推出模块化语音 AI 工具 Unmute，赋予大模型语音能力；开源语音硬件「小智 AI 」演示视觉理解能力丨日报

我们欢迎更多的小伙伴参与。

2025-05-26 22:17:56 689

原创上线 3 天破 500 星，TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人丨社区来稿

GPT-4o 所展示对话式 AI 的新高度，正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用，成为构建多模态智能体的重要组成部分。在真实对话里，插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应，整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈，它不能只是“听见”并“答复”——它需要真正。

2025-05-23 22:20:50 907

原创腾讯推出端到端语音通话模型「混元 Voice」，1.6 秒响应；实时转录工具集体爆发丨日报

我们欢迎更多的小伙伴参与。

2025-05-22 21:00:46 730

原创 Gemini 刚发布的「主动音频」和「主动视频」是什么？对谈 Project Astra 主管

今天的 Google I/O 2025 大会上，实时多模态模型 Gemini Live API 升级了最新功能，除了更加细致的情感理解和双人语音合成，更吸引人注意的便是「主动音频」和「主动视频」功能。主动音频和主动视频是什么？demo 演示中，Gemini 会主动忽略人类对话里一些类似「ok」这样的「背景声音」，持续说话。实际测试中，Gemini 会记住所看到的画面，例如你可以询问模型你刚才都展示了多少件物品，而第二次展示的是什么。

2025-05-21 21:57:04 776

原创 Gemma 3n 新增音视频理解，可在手机运行；Gemini Live API 升级主动音视频，能记录关键事件和适时回应丨日报

我们欢迎更多的小伙伴参与。

2025-05-21 21:43:20 1030

原创高能预警！Community Day 20+议题大公开

盛夏将至一场技术狂欢即将上演热血开发者蓄势待发即将引爆全场！你准备好了吗？立即报名不错过海量技术干货5月25日11:00-20:00北京市东城区美术馆后街40号·美后肆时。

2025-05-20 19:30:29 430

原创 NotebookLM 推出移动版本，音频概览支持实时互动；豆包 AI 耳机支持外教语音智能体 Owen丨日报

我们欢迎更多的小伙伴参与。

2025-05-20 18:54:15 930

原创 ListenHub ：短播客内容生成和消费 Agent；Ollama 新引擎支持多模态推理模型，将支持语音生成丨日报

我们欢迎更多的小伙伴参与。

2025-05-19 20:19:39 1071

原创最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人｜社区来稿

GPT-4o 所展示对话式 AI 的新高度，正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用，成为构建多模态智能体的重要组成部分。在真实对话里，插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应，整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈，它不能只是“听见”并“答复”——它需要真正。

2025-05-16 22:10:41 1126

原创 TEN 开源超轻量 VAD 和全双工对话轮次检测模型；Stability AI 发布全新端侧音频生成模型，无版权风险丨日报

我们欢迎更多的小伙伴参与。

2025-05-16 21:40:53 900

原创 MiniMax 新语音模型登顶 TTS 全球榜单；AI 会议笔记 Granola 融资 6700 万美元，估值 2.5 亿丨日报

我们欢迎更多的小伙伴参与。

2025-05-15 20:20:13 763

原创 Nooka：将书籍生成可互动音频，支持随时打断和提问；Sam Altman：语音与图形界面结合将带来创新丨日报

我们欢迎更多的小伙伴参与。

2025-05-14 18:39:26 883

原创 Manus AI 融资 7500 万美元，开放免费使用；扎克伯格：AR 眼镜会是未来的手机，VR 则是未来的电视丨日报

我们欢迎更多的小伙伴参与。

2025-05-13 20:09:15 612

原创 Voice Agent Camp 招募：GPT-4o 一周年，我们决定发起一个创业营丨超音速计划 2025

你是否也曾反复揣摩《Her》中的语音交互，并梦想着复刻甚至超越那份智能与情感？在 Voice Agent Camp，遇见与你怀着同样热忱与梦想的伙伴。多模态 AI、语音合成、multi-agent 等技术日臻成熟，场景应用即将爆发。我们将招募约 15 家团队，共同围绕「Voice First」理念，打造 AI 陪伴、个人助理、企业客服、AI 语音智能硬件等下一代产品。「超音速计划 2025·Voice Agent Camp」将于 6 月初开营，为期三个月。

2025-05-13 19:26:04 964

原创苹果提出高效视觉编码器 FastVLM，可在移动设备部署；微软更新 Copilot：与 AI 实时分享并讨论屏幕内容丨日报

我们欢迎更多的小伙伴参与。

2025-05-12 18:20:54 795

原创 Ava：6 分钟语音聊天免费生成 MBTI 报告；字节发布图像理解与生成统一模型 Mogao丨日报

我们欢迎更多的小伙伴参与。

2025-05-09 18:12:36 916

原创 AI 大赛丨总奖池 50 万元！「1000 AIdea 应用计划」等你来战！

TEN 支持多模态传输，提供低延迟、可打断的交互体验，目前已集成 DeepSeek、Gemini、OpenAI Realtime、RTC 等全球主流STT、LLM、TTS 及模块组件，同时适配 Dify、Coze 主流编排工具。，愿意一起分享想法和讨论技术，一起赶 deadline 的朋友可以加群（加微信 Creators2022，备注身份和来意“参赛小分队加群”）。希望你的项目最好与多模态相关，比如会用到语音交互、视觉理解、音视频生成等，这样我们能够给到最匹配最专业的支持！

2025-05-08 21:07:41 474

原创通义视觉负责人薄列峰离职；ElevenLabs 开源 Next.js 音频入门套件，几分钟搭建对话式 AI丨日报

我们欢迎更多的小伙伴参与。

2025-05-08 18:38:20 987

原创活动报名丨在旧金山&硅谷，遇见 Voice Agent 开发者&创业者

5 月 14～16 日，我们将在美国旧金山举办和参与多场 Voice Agent 主题的开发者活动。其中包括 TEN Framework 的工作坊、RTE Dev Party 和 Linkloud 的硅谷线下沙龙。我们也想趁这次拜访旧金山&硅谷的契机，认识更多在地的开发者和创业者。无论你是对本次活动有兴趣，还是想长期加入 RTE 开发者社区，遇见更多相同的开发者和创业者，都欢迎联系我们！（请加微信 creators2022，备注「旧金山开发者」就好）

2025-05-07 21:48:44 817

原创 Voila：开源端到端全双工语音模型，延迟 195 毫秒；Gemini 2.5 Pro 预览版发布，视频理解能力提升丨日报

我们欢迎更多的小伙伴参与。

2025-05-07 19:25:06 901

原创彻底搞懂 MCP 是什么、和 API 的区别、对企业的价值，如何在企业落地、未来趋势丨社区来稿

MCP 是什么？MCP 和 API 的区别？MCP 对企业的价值？MCP 如何在企业落地？MCP 未来的发展趋势是什么？

2025-05-06 20:00:16 1051

原创通义发布小尺寸多模态模型 Qwen2.5-Omni-3B；英伟达开源 ASR 模型 Parakeet TDT 0.6B 丨日报

我们欢迎更多的小伙伴参与。

2025-05-06 19:11:03 1058

原创 NotebookLM 音频概览支持中文；扎克伯格 LlamaCon 发言：语音当下被低估了，未来语音交互将占据更大比重丨日报 RTE开发者社区 RTE开发者社区

我们欢迎更多的小伙伴参与。

2025-04-30 16:39:52 942

原创沐言智语开源 Muyan-TTS：基于高质量播客数据集，二次开发友好；Ztalk.ai：实时语音会议翻译，支持 30+语言丨日报

我们欢迎更多的小伙伴参与。

2025-04-29 16:51:16 982

原创 ElatoAI：开源 ESP32 AI 语音 AI 玩具方案；凯叔推出 AI 故事玩偶「鸡飞飞」丨日报

我们欢迎更多的小伙伴参与。

2025-04-28 20:02:28 710

原创徽客松S1 | 合肥首场 AI 黑客松招募

我们和本次「徽客松」发起人 SDL 也是在一个黑客松上相识。当你的城市还没有黑客松可参加，与其等待，不如学习 SDL，自己发起一个！越来越多的黑客松在各个城市出现！5 月 10 日，合肥，12 小时极速挑战。

2025-04-27 20:34:43 485

原创月暗开源 Kimi-Audio，单一框架执行多种语音任务；照片秒变可对话数字人，LemonAI 推出 Slice Live丨日报

我们欢迎更多的小伙伴参与。

2025-04-27 18:59:13 925

原创 Rime 最新 TTS 模型 Arcana：能听到呼吸声和轻微口腔音；Bubba AI：专为卡车司机打造的语音交互智能体丨日报

我们欢迎更多的小伙伴参与。

2025-04-25 19:22:49 825

原创视频丨Google 最新 AI 眼镜原型曝光：轻量 XR+情境感知 AI 打造下一代计算平台

从「看见」环境到「理解」环境，从「指令式」交互到「对话式」交互，从「工具」角色到「伙伴」角色，轻量 XR+情境感知 AI 正在塑造下一个计算平台。「AI 和 XR 正在融合，解锁人机交互的全新范式，计算机将变得更加轻量级和个性化，它们会共享你的视角，了解你的真实世界背景。轻量化 XR 设备与情境感知 AI 的结合，正在「增强现实」迈向「增强人类智能」，未来将提供更自然、个性化的人机交互方式。多语言翻译，未经预先告知，仅需注视西班牙语标识，Gemini 就能即时翻译成多种语言，如波斯语，印地语等；

2025-04-25 19:06:26 576

原创字节推出 LiveCC，首个实时评论视频模型；AI 客户访谈初创 Listen Labs 融资 2700 万美元，红杉领投丨日报

我们欢迎更多的小伙伴参与。

2025-04-24 19:15:41 1048

原创 C.AI 推出 AvatarFX 模型：让图片角色开口说话；Grok 升级视觉理解，支持多语种语音和语音实时搜索丨日报

我们欢迎更多的小伙伴参与。

2025-04-23 18:47:48 826

原创我们收到了数百份AI“生存提案”｜72小时AI生存挑战招募中

更多 Voice Agent 学习笔记：级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场丨 Voice Agent 学习笔记a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧

2025-04-22 21:23:25 135

空空如也

空空如也