• 博客(977)
  • 收藏
  • 关注

原创 OpenAI SDK 上新 RealtimeAgent;OpenAudio S1 语音生成模型:语调情感标记,精确控制风格

我们欢迎更多的小伙伴参与。

2025-06-04 22:36:10 340

原创 11Labs 发布对话式 AI 2.0,集成话轮转换和知识库,多语言多角色多模态;通义公布空间音频生成模型 OmniAudio

我们欢迎更多的小伙伴参与。

2025-06-03 19:34:00 486

原创 今年夏天,最不该错过的一场 AI 聚会

那就是 AGI Playground。Founder Park 与 22 个 AI 创业社区、开发者社区、媒体、VC 首次串台联动。和去年一样,RTE 开发者社区会以「RTE Open Day 」系列活动的形式,深度参与到这场 AI Builder 的聚会里。在公布完整攻略前,先了解社区都准备了哪些活动等待你参与,更关键的是,抓紧锁定早鸟票!

2025-05-30 18:28:31 584

原创 开源 TTS 模型 Chatterbox:支持实时合成,0.5B 规模;Odyssey:实时互动视频,30 帧/秒流式传输丨日报

我们欢迎更多的小伙伴参与。

2025-05-30 17:54:22 1115

原创 Kyutai 推出模块化语音 AI 工具 Unmute,赋予大模型语音能力;开源语音硬件「小智 AI 」演示视觉理解能力丨日报

我们欢迎更多的小伙伴参与。

2025-05-26 22:17:56 689

原创 上线 3 天破 500 星,TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人丨社区来稿

GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。在真实对话里,插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应,整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈,它不能只是“听见”并“答复”——它需要真正。

2025-05-23 22:20:50 907

原创 腾讯推出端到端语音通话模型「混元 Voice」,1.6 秒响应;实时转录工具集体爆发丨日报

我们欢迎更多的小伙伴参与。

2025-05-22 21:00:46 730

原创 Gemini 刚发布的「主动音频」和「主动视频」是什么?对谈 Project Astra 主管

今天的 Google I/O 2025 大会上,实时多模态模型 Gemini Live API 升级了最新功能,除了更加细致的情感理解和双人语音合成,更吸引人注意的便是「主动音频」和「主动视频」功能。主动音频和主动视频是什么?demo 演示中,Gemini 会主动忽略人类对话里一些类似「ok」这样的「背景声音」,持续说话。实际测试中,Gemini 会记住所看到的画面,例如你可以询问模型你刚才都展示了多少件物品,而第二次展示的是什么。

2025-05-21 21:57:04 776

原创 Gemma 3n 新增音视频理解,可在手机运行;Gemini Live API 升级主动音视频,能记录关键事件和适时回应丨日报

我们欢迎更多的小伙伴参与。

2025-05-21 21:43:20 1030

原创 高能预警!Community Day 20+议题大公开

盛夏将至一场技术狂欢即将上演热血开发者蓄势待发即将引爆全场!你准备好了吗?立即报名不错过海量技术干货5月25日11:00-20:00北京市东城区美术馆后街40号·美后肆时。

2025-05-20 19:30:29 430

原创 NotebookLM 推出移动版本,音频概览支持实时互动;豆包 AI 耳机支持外教语音智能体 Owen丨日报

我们欢迎更多的小伙伴参与。

2025-05-20 18:54:15 930

原创 ListenHub :短播客内容生成和消费 Agent;Ollama 新引擎支持多模态推理模型,将支持语音生成丨日报

我们欢迎更多的小伙伴参与。

2025-05-19 20:19:39 1071

原创 最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人 | 社区来稿

GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。在真实对话里,插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应,整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈,它不能只是“听见”并“答复”——它需要真正。

2025-05-16 22:10:41 1126

原创 TEN 开源超轻量 VAD 和全双工对话轮次检测模型;Stability AI 发布全新端侧音频生成模型,无版权风险丨日报

我们欢迎更多的小伙伴参与。

2025-05-16 21:40:53 900

原创 MiniMax 新语音模型登顶 TTS 全球榜单;AI 会议笔记 Granola 融资 6700 万美元,估值 2.5 亿丨日报

我们欢迎更多的小伙伴参与。

2025-05-15 20:20:13 763

原创 Nooka:将书籍生成可互动音频,支持随时打断和提问;Sam Altman:语音与图形界面结合将带来创新丨日报

我们欢迎更多的小伙伴参与。

2025-05-14 18:39:26 883

原创 Manus AI 融资 7500 万美元,开放免费使用;扎克伯格:AR 眼镜会是未来的手机,VR 则是未来的电视丨日报

我们欢迎更多的小伙伴参与。

2025-05-13 20:09:15 612

原创 Voice Agent Camp 招募:GPT-4o 一周年,我们决定发起一个创业营丨超音速计划 2025

你是否也曾反复揣摩《Her》中的语音交互,并梦想着复刻甚至超越那份智能与情感?在 Voice Agent Camp,遇见与你怀着同样热忱与梦想的伙伴。多模态 AI、语音合成、multi-agent 等技术日臻成熟,场景应用即将爆发。我们将招募约 15 家团队,共同围绕「Voice First」理念,打造 AI 陪伴、个人助理、企业客服、AI 语音智能硬件等下一代产品。「超音速计划 2025·Voice Agent Camp」 将于 6 月初开营,为期三个月。

2025-05-13 19:26:04 964

原创 苹果提出高效视觉编码器 FastVLM,可在移动设备部署;微软更新 Copilot:与 AI 实时分享并讨论屏幕内容丨日报

我们欢迎更多的小伙伴参与。

2025-05-12 18:20:54 795

原创 Ava:6 分钟语音聊天免费生成 MBTI 报告;字节发布图像理解与生成统一模型 Mogao丨日报

我们欢迎更多的小伙伴参与。

2025-05-09 18:12:36 916

原创 AI 大赛丨总奖池 50 万元!「1000 AIdea 应用计划」等你来战!

TEN 支持多模态传输,提供低延迟、可打断的交互体验,目前已集成 DeepSeek、Gemini、OpenAI Realtime、RTC 等全球主流STT、LLM、TTS 及模块组件,同时适配 Dify、Coze 主流编排工具。,愿意一起分享想法和讨论技术,一起赶 deadline 的朋友可以加群(加微信 Creators2022,备注身份和来意“参赛小分队加群”)。希望你的项目最好与多模态相关,比如会用到语音交互、视觉理解、音视频生成等,这样我们能够给到最匹配最专业的支持!

2025-05-08 21:07:41 474

原创 通义视觉负责人薄列峰离职;ElevenLabs 开源 Next.js 音频入门套件,几分钟搭建对话式 AI丨日报

我们欢迎更多的小伙伴参与。

2025-05-08 18:38:20 987

原创 活动报名丨在旧金山&硅谷,遇见 Voice Agent 开发者&创业者

5 月 14~16 日,我们将在美国旧金山举办和参与多场 Voice Agent 主题的开发者活动。其中包括 TEN Framework 的工作坊、RTE Dev Party 和 Linkloud 的硅谷线下沙龙。我们也想趁这次拜访旧金山&硅谷的契机,认识更多在地的开发者和创业者。无论你是对本次活动有兴趣,还是想长期加入 RTE 开发者社区,遇见更多相同的开发者和创业者,都欢迎联系我们!(请加微信 creators2022,备注「旧金山开发者」就好)

2025-05-07 21:48:44 817

原创 Voila:开源端到端全双工语音模型,延迟 195 毫秒;Gemini 2.5 Pro 预览版发布,视频理解能力提升丨日报

我们欢迎更多的小伙伴参与。

2025-05-07 19:25:06 901

原创 彻底搞懂 MCP 是什么、和 API 的区别、对企业的价值,如何在企业落地、未来趋势丨社区来稿

MCP 是什么?MCP 和 API 的区别?MCP 对企业的价值?MCP 如何在企业落地?MCP 未来的发展趋势是什么?

2025-05-06 20:00:16 1051

原创 通义发布小尺寸多模态模型 Qwen2.5-Omni-3B;英伟达开源 ASR 模型 Parakeet TDT 0.6B 丨日报

我们欢迎更多的小伙伴参与。

2025-05-06 19:11:03 1058

原创 NotebookLM 音频概览支持中文;扎克伯格 LlamaCon 发言:语音当下被低估了,未来语音交互将占据更大比重丨日报 RTE开发者社区 RTE开发者社区

我们欢迎更多的小伙伴参与。

2025-04-30 16:39:52 942

原创 沐言智语开源 Muyan-TTS:基于高质量播客数据集,二次开发友好;Ztalk.ai:实时语音会议翻译,支持 30+语言丨日报

我们欢迎更多的小伙伴参与。

2025-04-29 16:51:16 982

原创 ElatoAI:开源 ESP32 AI 语音 AI 玩具方案;凯叔推出 AI 故事玩偶「鸡飞飞」丨日报

我们欢迎更多的小伙伴参与。

2025-04-28 20:02:28 710

原创 徽客松S1 | 合肥首场 AI 黑客松招募

我们和本次「徽客松」发起人 SDL 也是在一个黑客松上相识。当你的城市还没有黑客松可参加,与其等待,不如学习 SDL,自己发起一个!越来越多的黑客松在各个城市出现!5 月 10 日,合肥,12 小时极速挑战。

2025-04-27 20:34:43 485

原创 月暗开源 Kimi-Audio,单一框架执行多种语音任务;照片秒变可对话数字人,LemonAI 推出 Slice Live丨日报

我们欢迎更多的小伙伴参与。

2025-04-27 18:59:13 925

原创 Rime 最新 TTS 模型 Arcana:能听到呼吸声和轻微口腔音;Bubba AI:专为卡车司机打造的语音交互智能体丨日报

我们欢迎更多的小伙伴参与。

2025-04-25 19:22:49 825

原创 视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台

从「看见」环境到「理解」环境,从「指令式」交互到「对话式」交互,从「工具」角色到「伙伴」角色,轻量 XR+情境感知 AI 正在塑造下一个计算平台。「AI 和 XR 正在融合,解锁人机交互的全新范式,计算机将变得更加轻量级和个性化,它们会共享你的视角,了解你的真实世界背景。轻量化 XR 设备与情境感知 AI 的结合,正在「增强现实」迈向「增强人类智能」,未来将提供更自然、个性化的人机交互方式。多语言翻译,未经预先告知,仅需注视西班牙语标识,Gemini 就能即时翻译成多种语言,如波斯语,印地语等;

2025-04-25 19:06:26 576

原创 字节推出 LiveCC,首个实时评论视频模型;AI 客户访谈初创 Listen Labs 融资 2700 万美元,红杉领投丨日报

我们欢迎更多的小伙伴参与。

2025-04-24 19:15:41 1048

原创 C.AI 推出 AvatarFX 模型:让图片角色开口说话;Grok 升级视觉理解,支持多语种语音和语音实时搜索丨日报

我们欢迎更多的小伙伴参与。

2025-04-23 18:47:48 826

原创 我们收到了数百份AI“生存提案”|72小时AI生存挑战招募中

更多 Voice Agent 学习笔记:级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧

2025-04-22 21:23:25 135

原创 阶跃星辰发布端到端语音接口 Realtime API,理解情绪、随时打断;Dia TTS:生成语音可带笑声、咳嗽声、清嗓子丨日报

我们欢迎更多的小伙伴参与。

2025-04-22 21:02:37 1035

原创 Google创始人:未来一年绝大多数程序员将被AI取代;FeedbackStream:8分钟创建语音访谈智能体,输出高质量洞察

我们欢迎更多的小伙伴参与。

2025-04-21 22:26:35 822

原创 级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

总体而言,效率是议价指标,平台开放性决定效率。例如,如果一家Voice Agent公司接入硅基流动平台,理论上就有可能可以接所有的模型进行收费。

2025-04-21 22:02:16 1024

原创 Hume 推出 Octave TTS 即时模式,250 毫秒响应;客服语音智能体 Sona:简单集成、高度自定义丨日报

OpenPhone 发布了一款客服语音智能体产品 Sona,专为提升企业通信效率而设计。它能够全天候响应来电,自动捕捉潜在客户信息、解答常见问题,并完整记录通话数据,帮助团队快速高效地跟进。Sona 支持高度自定义——可以自主控制其介入时机和协助方式。企业可根据需求灵活设置其工作流程,且无需复杂集成,简单配置即可快速投入使用。尤其适合依赖客户咨询的服务型企业、人员有限的中小团队,以及注重专业形象与响应速度的企业。

2025-04-18 22:17:05 723

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除