开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、Gemini 2.0 引入多语言原生音频输出
Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音频能力。视频中,Gemini 2.0 可以切换不同语言、使用不同语速、语调和情感说话;还支持使用 Prompt 的方式控制语音的输出结果。(@ Google Deepmind@X)
2、谷歌文生图 AI 模型 Imagen 3 再进化:多样艺术风格、构图更平衡
谷歌公司昨日(12 月 16 日)发布博文,在发布 Veo 2 视频生成模型之外,还增强了 Imagen 3 文生图 AI 模型,为用户带来更多花样的艺术风格。
谷歌表示 Imagen 3 是谷歌最强的文生图模型,在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格,并更精准地基于提示词转换,可以生成更明亮、构图更平衡的视觉效果。
谷歌 Imagen 3 还带来了更丰富的纹理、进一步增强了图片细节,在官方放出的测试中,超过了 OpenAI 的 DALL-E3 和 Flux 等主流模型。(@IT 之家)
02有亮点的产品
1、月之暗面 Kimi 视觉思考版上线:基于 k1 模型打造 可识别图片内容
月之暗面旗下人工智能助手 Kimi 已上线新功能——视觉思考版。这一更新使得 Kimi 能够对用户发送的图片进行细致的观察和深入分析,揭示图片背后的秘密。用户现在可以