ChatGPT 支持语音实时搜索；Meta Ray-Ban 智能眼镜新增视频识别与实时语音翻译功能丨 RTE 开发者日报

RTE开发者社区

于 2024-12-17 17:33:30 发布

阅读量855

点赞数 15

文章标签： chatgpt 音视频实时互动

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agora_cloud/article/details/144540023

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、Gemini 2.0 引入多语言原生音频输出

Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音频能力。视频中，Gemini 2.0 可以切换不同语言、使用不同语速、语调和情感说话；还支持使用 Prompt 的方式控制语音的输出结果。(@ Google Deepmind@X)

2、谷歌文生图 AI 模型 Imagen 3 再进化：多样艺术风格、构图更平衡

谷歌公司昨日（12 月 16 日）发布博文，在发布 Veo 2 视频生成模型之外，还增强了 Imagen 3 文生图 AI 模型，为用户带来更多花样的艺术风格。

谷歌表示 Imagen 3 是谷歌最强的文生图模型，在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格，并更精准地基于提示词转换，可以生成更明亮、构图更平衡的视觉效果。

谷歌 Imagen 3 还带来了更丰富的纹理、进一步增强了图片细节，在官方放出的测试中，超过了 OpenAI 的 DALL-E3 和 Flux 等主流模型。（@IT 之家）

02有亮点的产品

1、月之暗面 Kimi 视觉思考版上线：基于 k1 模型打造可识别图片内容

月之暗面旗下人工智能助手 Kimi 已上线新功能——视觉思考版。这一更新使得 Kimi 能够对用户发送的图片进行细致的观察和深入分析，揭示图片背后的秘密。用户现在可以

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。