谷歌AI Studio实时视频对话,终于支持中文了。
之前一直很想用屏幕共享功能让AI远程协助,但受限不少。
ChatGPT Plus 虽然也有实时视频和屏幕共享功能,但每天使用次数限制比较大,而且只能在手机端使用,实在不太方便。
谷歌以前的实时视频对话不支持中文。挺不方便的。
现在他上线了Gemini 2.5 Flash 原生视频对话模型,有两个,一个普通模型,一个带思考的。
使用它也很简单,直接在:
https://aistudio.google.com/prompts/new_chat
chat 这里点击Live audio-to-audio dialog
让他先看一下我这个网站。以及报错。
这个网站如他所说。是用来展示我前面不同排版风格文章主题的,+提示词。
这个用例就是具体开发中可以快速的获取ai的帮助。你可以和他聊聊网站的错误或者优化点等等。
唯一的问题是。他说话太慢了。让他快点,他也不会。然后这个界面也没有一个支持系统提示的地方。
有时候。急急国王附体。想让他少说点废话。口头提示好几次。效果也不是太好。
试过ChatGpt、智谱app的都快不起来。
Gemini 2.5 Flash非思考的模型响应非常快。而思考模型大约在说完话一两秒后才响应。
此外,谷歌的这个提供的音色还蛮多的。
这下面还有三个比较有意思的功能。第1个可以让模型在没有检测到声音的时候发送音频和视频。第2个可以给对话加入情感。最后一个类似于降噪,不响应与正在对话无关的音频。
继续看一下,用他辅助的场景。
AI 和我一起设计 Logo / UI 界面
用于封面设计的辅助对话。设计师在构思初期需要灵感或快速迭代想法。
打开一个设计软件(如 Figma, Canva)或者一个白板工具。
共享屏幕,用中文向 AI 说:"我们来一起设计一个 Logo,主题是环保科技。我先画一个草图(开始画),你觉得怎么样?有什么可以改进的吗?"或者"我想设计一个简约风格的 App 首页,主要功能有 A、B、C,你能给我一些布局建议吗?(在屏幕上比划)"
AI 陪我学新软件/新技能
学习一个复杂的新软件(如 Photoshop, Blender, Figma,AE)或新技能(如视频剪辑、数据分析)时,教程繁多,遇到问题无人请教。
使用步骤:
1. 打开一个你不太熟悉的专业软件。
2. 共享屏幕,用中文向 AI 说:"我想学习用 XX 软件的这个功能(鼠标指向),你能一步步教我怎么操作吗?"或者"我正在看这个教程(屏幕上显示教程页面/视频),但这一步我卡住了(指出具体步骤),你能解释一下吗?"
3. 观察 AI 如何结合屏幕内容进行教学,能否提供清晰的操作指引,能否解答你的疑问。
好吧我试了,简单的还可以。复杂的太废话了,没什么大用。
有些问题不是一张截图就能说清的,特别是那些涉及操作顺序、时序变化的问题。
AI 帮我修电脑/调软件
电脑小白遇到软件报错、系统设置问题,不知道如何解决,电话/文字沟通效率低下。
"我的 XX 软件打不开了,提示这个错误(指着屏幕上的错误弹窗),你能帮我看看怎么解决吗?"或者"我想调整 XX 软件的这个参数(鼠标指向),但我不知道具体数值怎么填,你能给我一些建议吗?"
AI 辅助我进行产品演示/方案讲解
需要向他人演示一个产品功能或讲解一个复杂方案,希望有 AI 辅助,或者想提前演练。
1. 准备一个简单的产品 Demo 或 PPT 方案。
2. 共享屏幕,用中文向 AI 说:"我现在要向你演示一下我们这个新产品的功能,请你扮演一个潜在客户,在我演示的过程中可以随时提问。"然后开始你的演示。
3. 或者说:"我要讲解这个方案(指向 PPT),你能帮我看看我的逻辑是否清晰,有没有什么可以改进的地方吗?"
4. 观察 AI 是否能理解你的演示内容,提出的问题是否有水平,给出的反馈是否有价值。
One More Thing
本号知识星球(汇集ALL订阅频道合集和其他):
星球里可获取更多AI实践和资讯:
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
点这里👇关注我,记得标星哦~
AI进修生
🌱 种下知识,收获未来 🌱