- 博客(951)
- 收藏
- 关注
原创 NotebookLM 音频概览支持中文;扎克伯格 LlamaCon 发言:语音当下被低估了,未来语音交互将占据更大比重丨日报 RTE开发者社区 RTE开发者社区
我们欢迎更多的小伙伴参与。
2025-04-30 16:39:52
841
原创 沐言智语开源 Muyan-TTS:基于高质量播客数据集,二次开发友好;Ztalk.ai:实时语音会议翻译,支持 30+语言丨日报
我们欢迎更多的小伙伴参与。
2025-04-29 16:51:16
846
原创 徽客松S1 | 合肥首场 AI 黑客松招募
我们和本次「徽客松」发起人 SDL 也是在一个黑客松上相识。当你的城市还没有黑客松可参加,与其等待,不如学习 SDL,自己发起一个!越来越多的黑客松在各个城市出现!5 月 10 日,合肥,12 小时极速挑战。
2025-04-27 20:34:43
439
原创 月暗开源 Kimi-Audio,单一框架执行多种语音任务;照片秒变可对话数字人,LemonAI 推出 Slice Live丨日报
我们欢迎更多的小伙伴参与。
2025-04-27 18:59:13
810
原创 Rime 最新 TTS 模型 Arcana:能听到呼吸声和轻微口腔音;Bubba AI:专为卡车司机打造的语音交互智能体丨日报
我们欢迎更多的小伙伴参与。
2025-04-25 19:22:49
745
原创 视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台
从「看见」环境到「理解」环境,从「指令式」交互到「对话式」交互,从「工具」角色到「伙伴」角色,轻量 XR+情境感知 AI 正在塑造下一个计算平台。「AI 和 XR 正在融合,解锁人机交互的全新范式,计算机将变得更加轻量级和个性化,它们会共享你的视角,了解你的真实世界背景。轻量化 XR 设备与情境感知 AI 的结合,正在「增强现实」迈向「增强人类智能」,未来将提供更自然、个性化的人机交互方式。多语言翻译,未经预先告知,仅需注视西班牙语标识,Gemini 就能即时翻译成多种语言,如波斯语,印地语等;
2025-04-25 19:06:26
527
原创 字节推出 LiveCC,首个实时评论视频模型;AI 客户访谈初创 Listen Labs 融资 2700 万美元,红杉领投丨日报
我们欢迎更多的小伙伴参与。
2025-04-24 19:15:41
968
原创 C.AI 推出 AvatarFX 模型:让图片角色开口说话;Grok 升级视觉理解,支持多语种语音和语音实时搜索丨日报
我们欢迎更多的小伙伴参与。
2025-04-23 18:47:48
769
原创 我们收到了数百份AI“生存提案”|72小时AI生存挑战招募中
更多 Voice Agent 学习笔记:级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧
2025-04-22 21:23:25
111
原创 阶跃星辰发布端到端语音接口 Realtime API,理解情绪、随时打断;Dia TTS:生成语音可带笑声、咳嗽声、清嗓子丨日报
我们欢迎更多的小伙伴参与。
2025-04-22 21:02:37
993
原创 Google创始人:未来一年绝大多数程序员将被AI取代;FeedbackStream:8分钟创建语音访谈智能体,输出高质量洞察
我们欢迎更多的小伙伴参与。
2025-04-21 22:26:35
798
原创 级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
总体而言,效率是议价指标,平台开放性决定效率。例如,如果一家Voice Agent公司接入硅基流动平台,理论上就有可能可以接所有的模型进行收费。
2025-04-21 22:02:16
946
原创 Hume 推出 Octave TTS 即时模式,250 毫秒响应;客服语音智能体 Sona:简单集成、高度自定义丨日报
OpenPhone 发布了一款客服语音智能体产品 Sona,专为提升企业通信效率而设计。它能够全天候响应来电,自动捕捉潜在客户信息、解答常见问题,并完整记录通话数据,帮助团队快速高效地跟进。Sona 支持高度自定义——可以自主控制其介入时机和协助方式。企业可根据需求灵活设置其工作流程,且无需复杂集成,简单配置即可快速投入使用。尤其适合依赖客户咨询的服务型企业、人员有限的中小团队,以及注重专业形象与响应速度的企业。
2025-04-18 22:17:05
678
原创 Edge 浏览器推出 Copilot Vision:免费实时解析屏幕内容;Aqua Voice:极速 AI 语音输入工具丨日报
开发者朋友们大家好这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@赵怡岭、@鲍勃。
2025-04-17 19:24:57
892
原创 AI 语音公司 ElevenLabs 进军亚太市场设立东京子公司;EverTutor Live :语音交互 AI 教育平台丨日报
开发者朋友们大家好:这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
2025-04-16 20:01:05
757
原创 MiniMax 发布新 TTS 模型 Speech-02,轻松制作长篇有声内容;Meta 高端眼镜年底推出,售价上千美元丨日报
开发者朋友们大家好:这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
2025-04-02 18:51:57
1110
原创 与 AI 共处 72 小时,没有食物、水、手机,会发生什么|寻找「赛博鲁滨逊」
更多 Voice Agent 学习笔记:a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过多模态 AI 怎么玩?这里有 18 个脑洞AI 重塑宗教体验
2025-04-02 18:14:19
271
原创 ElevenLabs 对话式 AI 支持 RAG;阿里 TaoAvatar 快速生成 3D 数字人:实时渲染兼容移动设备丨日报
我们欢迎更多的小伙伴参与。
2025-03-28 17:26:25
966
原创 昆仑万维发布 Mureka TTS API 和音乐推理大模型;通义发布小尺寸端到端多模态模型 Qwen2.5-Omni丨日报
Lemni 允许用户创建 AI 智能体,负责处理所有客户互动,并在无需增加人手的情况下,实现高度个性化的沟通——涵盖电话、邮件支持以及主动外联。使用 Lemni,你可以在不扩张团队的前提下扩展业务。
2025-03-27 19:44:23
758
原创 直播预告丨手把手教你让 DeepSeek 开口说话
直播预告丨手把手教你让 DeepSeek 开口说话 声网资深产品经理实践教学,“小白”都能看懂的0到1攻略,让 DeepSeek 开口说话就是这么简单。👉🏻快快扫描图2中的二维码提前预约直播吧!
2025-03-26 21:45:22
102
原创 Google 发布 Gemini 2.5 Pro 模型:思考+多模态;Vibe Coder :通过语音对话实现「氛围编程」丨日报
我们欢迎更多的小伙伴参与。
2025-03-26 16:02:45
893
原创 什么是「Agentic 工作流程」?丨社区来稿
摘要分享者:Richard 林旅强(RTE 开发者社区联合主理人)什么是「Agentic 工作流程」?它是一种让 AI 智能代理(Agent)更主动、更灵活、更像人的方式来处理复杂任务的系统。刚才读到了一篇言简意赅的文章(链接在文末),我想就基于以下每一张文中的图示,来说说什么是 Agentic Workflow、有哪些组成、流程模式与应用场景吧。
2025-03-25 20:04:03
1002
原创 FeedbackStream:8 分钟创建 AI 面试智能体;Moshi 开源图像理解实时语音模型 MoshiVis 丨日报
我们欢迎更多的小伙伴参与。
2025-03-24 19:39:14
742
原创 OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报
我们欢迎更多的小伙伴参与。
2025-03-21 16:16:50
785
原创 Second Me:在 AI 中保留自我的火种丨社区来稿
这是一个全新的 AI 物种(AI 身份模型),他不想要对齐全人类,他只想对齐一个人,就是你自己。于是,他成为了 “AI 版本的身份”。这是一个开源的早期研究原型,每个人都可以在本地,隐私、安全的训练这个独特的 AI 新物种,并作为身份接口接入世界。这是一个由 AI身份 构成的原生网络,就像最早的互联网,他倡导开放、共建,参与者以 AI 的形态来看见彼此,来一起建设。这也是一种创新的AI原生应用的尝试,每一个创建的应用,都是为了让 “你的AI身份” 代表你来使用,而不是你。
2025-03-20 20:34:51
950
原创 月暗推出音频模型 AudioX:任意内容生成音频和配乐;开源 TTS 模型 Orpheus,可生成叹息、笑声等非文本线索丨日报
我们欢迎更多的小伙伴参与。
2025-03-20 19:54:49
1064
原创 Amphion 推出合成音频鉴别系统 Auditi;Gemini 引入 NotebookLM 功能,生成文档、网页音频摘要丨日报
我们欢迎更多的小伙伴参与。
2025-03-19 19:43:56
1072
原创 ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
图:Emmanuel Ashun / Endeavor大家好,这是 Voice Agent 学习笔记系列的第 23 篇,我是课代表十三🧑💻。ElevenLabs 是一家专注于人工智能语音技术的创新公司,致力于重新定义音频体验。凭借其突破性的语音克隆和配音工具,ElevenLabs 正在重塑音频内容创作的未来,让高质量、易于访问的音频内容触手可及。CEO Mati Staniszewski 曾就职于 Palantir,拥有深厚的产品经验。
2025-03-17 20:17:19
907
原创 阿里通义实验室语音团队负责人鄢志杰离职;苹果计划在 AirPods 上配备实时对话翻译功能丨日报
DeepMind 声称,在测试中,Gemini Robotics 使机器人能够在训练数据未涵盖的环境中表现出色。该实验室已发布了一个精简版模型 Gemini Robotics-ER,研究人员可用来训练自己的机器人控制模型,
2025-03-14 17:13:15
724
原创 通义 R1-Omni 模型:通过音视频判断人物情绪;Google 开源端侧多模态模型 Gemma 3,最小 1B 参数丨日报
今晚(周四) 20:00~21:15。
2025-03-13 18:46:45
745
原创 直播预告:慢热的 MCP 终于火了;什么是 MCP,以及智能体通信协议的未来丨RTE Dev Talk
MCP(Model Context Protocol)是一种标准化协议,可将 AI 智能体连接到各种外部工具和数据源。(图:Norah Sakal)慢热的 MCP 终于火了。与此同时,开发者社区中热议的话题还包括 Manus 及其开源复现、Computer Use、Deep Research 等议题——agentic Al 的「ChatGPT」时刻愈发临近。这些 agent 技术之间都有哪些差别?应用场景都有哪些?新协议的引入会带来哪些开发流程的变化?
2025-03-12 20:29:28
968
原创 Cartesia 升级 TTS 模型,可在音频中无缝填充内容;索尼 AI 游戏角色原型:结合语音与动画,与玩家实时对话丨日报
我们欢迎更多的小伙伴参与。
2025-03-12 16:38:24
1012
原创 端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
希望能给大家提供一些新的思考。同时,我们也整理了近 2 万字的完整版文字回顾,点击文末的**「阅读全文」**即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题!enjoy~
2025-03-11 20:53:50
959
原创 Tavus 发布对话轮次控制模型:能理解对话节奏和意图;百度推出 AI 情感陪伴应用月匣,整合 MiniMax 等模型丨日报
我们欢迎更多的小伙伴参与。
2025-03-11 18:51:10
993
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人