RTE开发者社区-CSDN博客

从「看见」环境到「理解」环境，从「指令式」交互到「对话式」交互，从「工具」角色到「伙伴」角色，轻量 XR+情境感知 AI 正在塑造下一个计算平台。「AI 和 XR 正在融合，解锁人机交互的全新范式，计算机将变得更加轻量级和个性化，它们会共享你的视角，了解你的真实世界背景。轻量化 XR 设备与情境感知 AI 的结合，正在「增强现实」迈向「增强人类智能」，未来将提供更自然、个性化的人机交互方式。多语言翻译，未经预先告知，仅需注视西班牙语标识，Gemini 就能即时翻译成多种语言，如波斯语，印地语等；

2025-04-25 19:06:26 527

原创字节推出 LiveCC，首个实时评论视频模型；AI 客户访谈初创 Listen Labs 融资 2700 万美元，红杉领投丨日报

我们欢迎更多的小伙伴参与。

2025-04-24 19:15:41 968

原创 C.AI 推出 AvatarFX 模型：让图片角色开口说话；Grok 升级视觉理解，支持多语种语音和语音实时搜索丨日报

我们欢迎更多的小伙伴参与。

2025-04-23 18:47:48 769

原创我们收到了数百份AI“生存提案”｜72小时AI生存挑战招募中

更多 Voice Agent 学习笔记：级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场丨 Voice Agent 学习笔记a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧

2025-04-22 21:23:25 111

原创阶跃星辰发布端到端语音接口 Realtime API，理解情绪、随时打断；Dia TTS：生成语音可带笑声、咳嗽声、清嗓子丨日报

我们欢迎更多的小伙伴参与。

2025-04-22 21:02:37 993

原创 Google创始人：未来一年绝大多数程序员将被AI取代；FeedbackStream：8分钟创建语音访谈智能体，输出高质量洞察

我们欢迎更多的小伙伴参与。

2025-04-21 22:26:35 798

原创级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记

总体而言，效率是议价指标，平台开放性决定效率。例如，如果一家Voice Agent公司接入硅基流动平台，理论上就有可能可以接所有的模型进行收费。

2025-04-21 22:02:16 946

原创 Hume 推出 Octave TTS 即时模式，250 毫秒响应；客服语音智能体 Sona：简单集成、高度自定义丨日报

OpenPhone 发布了一款客服语音智能体产品 Sona，专为提升企业通信效率而设计。它能够全天候响应来电，自动捕捉潜在客户信息、解答常见问题，并完整记录通话数据，帮助团队快速高效地跟进。Sona 支持高度自定义——可以自主控制其介入时机和协助方式。企业可根据需求灵活设置其工作流程，且无需复杂集成，简单配置即可快速投入使用。尤其适合依赖客户咨询的服务型企业、人员有限的中小团队，以及注重专业形象与响应速度的企业。

2025-04-18 22:17:05 678

原创 Edge 浏览器推出 Copilot Vision：免费实时解析屏幕内容；Aqua Voice：极速 AI 语音输入工具丨日报

开发者朋友们大家好这里是，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@赵怡岭、@鲍勃。

2025-04-17 19:24:57 892

原创 AI 语音公司 ElevenLabs 进军亚太市场设立东京子公司；EverTutor Live ：语音交互 AI 教育平台丨日报

开发者朋友们大家好：这里是，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

2025-04-16 20:01:05 757

原创从开发者视角解读 Google Cloud Next 25

我们欢迎更多的小伙伴参与。

2025-04-15 18:58:55 900

原创 MiniMax 发布新 TTS 模型 Speech-02，轻松制作长篇有声内容；Meta 高端眼镜年底推出，售价上千美元丨日报

开发者朋友们大家好：这里是，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

2025-04-02 18:51:57 1110

原创与 AI 共处 72 小时，没有食物、水、手机，会发生什么｜寻找「赛博鲁滨逊」

更多 Voice Agent 学习笔记：a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过多模态 AI 怎么玩？这里有 18 个脑洞AI 重塑宗教体验

2025-04-02 18:14:19 271

原创 a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

这很有趣，

2025-04-01 21:17:08 1029

原创字节开源轻量级 TTS 模型 MegaTTS3，中英切换自如；面壁首个纯端侧智能助手「上车」，支持多模态交互丨日报

我们欢迎更多的小伙伴参与。

2025-03-31 16:12:16 1124

原创 ElevenLabs 对话式 AI 支持 RAG；阿里 TaoAvatar 快速生成 3D 数字人：实时渲染兼容移动设备丨日报

我们欢迎更多的小伙伴参与。

2025-03-28 17:26:25 966

原创昆仑万维发布 Mureka TTS API 和音乐推理大模型；通义发布小尺寸端到端多模态模型 Qwen2.5-Omni丨日报

Lemni 允许用户创建 AI 智能体，负责处理所有客户互动，并在无需增加人手的情况下，实现高度个性化的沟通——涵盖电话、邮件支持以及主动外联。使用 Lemni，你可以在不扩张团队的前提下扩展业务。

2025-03-27 19:44:23 758

原创直播预告丨手把手教你让 DeepSeek 开口说话

直播预告丨手把手教你让 DeepSeek 开口说话声网资深产品经理实践教学，“小白”都能看懂的0到1攻略，让 DeepSeek 开口说话就是这么简单。👉🏻快快扫描图2中的二维码提前预约直播吧！

2025-03-26 21:45:22 102

原创 Google 发布 Gemini 2.5 Pro 模型：思考+多模态；Vibe Coder ：通过语音对话实现「氛围编程」丨日报

我们欢迎更多的小伙伴参与。

2025-03-26 16:02:45 893

原创什么是「Agentic 工作流程」？丨社区来稿

摘要分享者：Richard 林旅强（RTE 开发者社区联合主理人）什么是「Agentic 工作流程」？它是一种让 AI 智能代理（Agent）更主动、更灵活、更像人的方式来处理复杂任务的系统。刚才读到了一篇言简意赅的文章（链接在文末），我想就基于以下每一张文中的图示，来说说什么是 Agentic Workflow、有哪些组成、流程模式与应用场景吧。

2025-03-25 20:04:03 1002

原创 Dify+Agora 快速打造语音智能体；ISSEN：个性化 AI 语言老师，可语音交互丨日报

我们欢迎更多的小伙伴参与。

2025-03-25 19:19:27 1126

原创 FeedbackStream：8 分钟创建 AI 面试智能体；Moshi 开源图像理解实时语音模型 MoshiVis 丨日报

我们欢迎更多的小伙伴参与。

2025-03-24 19:39:14 742

原创 OpenAI 发布新一代 STT/TTS 模型，10 行代码构建 Voice Agent；声网推出对话式 AI 开发套件丨日报

我们欢迎更多的小伙伴参与。

2025-03-21 16:16:50 785

原创 Second Me：在 AI 中保留自我的火种丨社区来稿

这是一个全新的 AI 物种（AI 身份模型），他不想要对齐全人类，他只想对齐一个人，就是你自己。于是，他成为了 “AI 版本的身份”。这是一个开源的早期研究原型，每个人都可以在本地，隐私、安全的训练这个独特的 AI 新物种，并作为身份接口接入世界。这是一个由 AI身份构成的原生网络，就像最早的互联网，他倡导开放、共建，参与者以 AI 的形态来看见彼此，来一起建设。这也是一种创新的AI原生应用的尝试，每一个创建的应用，都是为了让 “你的AI身份” 代表你来使用，而不是你。

2025-03-20 20:34:51 950

原创月暗推出音频模型 AudioX：任意内容生成音频和配乐；开源 TTS 模型 Orpheus，可生成叹息、笑声等非文本线索丨日报

我们欢迎更多的小伙伴参与。

2025-03-20 19:54:49 1064

原创 Amphion 推出合成音频鉴别系统 Auditi；Gemini 引入 NotebookLM 功能，生成文档、网页音频摘要丨日报

我们欢迎更多的小伙伴参与。

2025-03-19 19:43:56 1072

原创 Zoom 全线产品引入 Agent，实现语音转录总结和语音客服等功能；谷歌云推出 TTS 模型 Chirp 3丨日报

我们欢迎更多的小伙伴参与。

2025-03-18 19:32:39 908

原创 ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

图：Emmanuel Ashun / Endeavor大家好，这是 Voice Agent 学习笔记系列的第 23 篇，我是课代表十三🧑‍💻。ElevenLabs 是一家专注于人工智能语音技术的创新公司，致力于重新定义音频体验。凭借其突破性的语音克隆和配音工具，ElevenLabs 正在重塑音频内容创作的未来，让高质量、易于访问的音频内容触手可及。CEO Mati Staniszewski 曾就职于 Palantir，拥有深厚的产品经验。

2025-03-17 20:17:19 907

原创阿里通义实验室语音团队负责人鄢志杰离职；苹果计划在 AirPods 上配备实时对话翻译功能丨日报

DeepMind 声称，在测试中，Gemini Robotics 使机器人能够在训练数据未涵盖的环境中表现出色。该实验室已发布了一个精简版模型 Gemini Robotics-ER，研究人员可用来训练自己的机器人控制模型，

2025-03-14 17:13:15 724

原创通义 R1-Omni 模型：通过音视频判断人物情绪；Google 开源端侧多模态模型 Gemma 3，最小 1B 参数丨日报

今晚（周四） 20:00~21:15。

2025-03-13 18:46:45 745

原创直播预告：慢热的 MCP 终于火了；什么是 MCP，以及智能体通信协议的未来丨RTE Dev Talk

MCP（Model Context Protocol）是一种标准化协议，可将 AI 智能体连接到各种外部工具和数据源。（图：Norah Sakal）慢热的 MCP 终于火了。与此同时，开发者社区中热议的话题还包括 Manus 及其开源复现、Computer Use、Deep Research 等议题——agentic Al 的「ChatGPT」时刻愈发临近。这些 agent 技术之间都有哪些差别？应用场景都有哪些？新协议的引入会带来哪些开发流程的变化？

2025-03-12 20:29:28 968

原创 Cartesia 升级 TTS 模型，可在音频中无缝填充内容；索尼 AI 游戏角色原型：结合语音与动画，与玩家实时对话丨日报

我们欢迎更多的小伙伴参与。

2025-03-12 16:38:24 1012

原创端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

希望能给大家提供一些新的思考。同时，我们也整理了近 2 万字的完整版文字回顾，点击文末的**「阅读全文」**即可获取！关注「RTE 开发者社区」视频号，点击「直播回放」，也可以查看完整视频。期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题！enjoy~

2025-03-11 20:53:50 959

原创 Tavus 发布对话轮次控制模型：能理解对话节奏和意图；百度推出 AI 情感陪伴应用月匣，整合 MiniMax 等模型丨日报

我们欢迎更多的小伙伴参与。

2025-03-11 18:51:10 993

空空如也

空空如也