AI跟踪报道第50期-新加坡内哥谈技术-本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼

新加坡内哥谈技术

于 2024-08-03 13:47:13 发布

阅读量606

点赞数 24

文章标签：人工智能语言模型自然语言处理计算机视觉

本文链接：https://blog.csdn.net/2301_79342058/article/details/140889454

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

点击下面视频观看在B站本周AI更新：

B 站链接观看：

本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼_哔哩哔哩_bilibili想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/1) SAM2: 下载模型：https://github.com/facebookresearch/segment-a, 视频播放量 0、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者内哥谈技术, 作者简介 N哥，新加坡。订阅中文简报，成为AI领域的领跑者。https://rengongzhineng.io/，相关视频：【爱死亡机器人】第一季：祝你狩猎顺利，「Manyana」机器人，AI回复，语音合成，低配服务器和安卓手机可部署，KDL第七季马桶人系列，快艾特你的好朋友给你买～，［AI视频］随手拍的一张医院走廊的照片让ai走出去，结果ai最终迷失在了自己创造的空间里，手工制作反泰坦过程（上），定制机器人女友续集，MURDER DRONES Series Finale [TRAILER]，大模型RAG企业项目实战：手把手带你搭建一套完整的RAG系统，原理讲解+代码解析，草履虫都能学明白！LLM大模型_RAG_大模型微调_多模态，AI眼中1到1亿元的石榴，如何让气缸在任意位置停留https://www.bilibili.com/video/BV1Gfi5ejEBP/

SAM2:

下载模型：https://github.com/facebookresearch/segment-anything-2
下载数据：https://ai.meta.com/datasets/segment-anything-video/
试试：https://sam2.metademolab.com/

Gemma 2B:

Gemma 2 2B (https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f)
ShieldGemma (https://huggingface.co/collections/google/shieldgemma-release-66a20efe3c10ef2bd5808c79)
Gemma Scope (https://huggingface.co/collections/google/gemma-scope-release-66a4271f6f0b4d4a9d5e04e2)

自从OpenAI推出ChatGPT的新语音高级模式已经有几天了，被选中的ChatGPT Plus订阅用户似乎对此赞不绝口。网上已经出现了许多展示该功能的视频，展示了其唱歌、模仿口音、纠正发音和叙述故事的能力。

其中一个例子是X用户@nickfloats上传的视频，他让ChatGPT“像机长对乘客讲故事一样讲一个故事。” 只过了一秒钟，ChatGPT便开始行动，甚至调整音频使其听起来更像是从广播中传出的声音。虽然ChatGPT在添加引擎声音等更复杂的请求上有些困难，但语音本身清晰且富有情感，并且能够很好地处理用户的打断。

在上传到YouTube的一次对话中，ChatGPT表示它可以处理“几十种语言”的输入，但确切的数量可能会因方言和地区变体的计算方式而有所不同。一个片段展示了聊天机器人纠正法语单词发音的能力，并给出具体的语调调整建议。另一个语言演示中，ChatGPT在详细请求下用土耳其语讲述了一个情感故事。虽然一些土耳其X用户指出口音听起来不像母语，但它能够完成故事请求并在适当时笑或哭。

这个机器人在处理美国各地区口音方面也表现不错，一个视频展示了包括纽约、波士顿、威斯康星和典型“山谷女孩”在内的多种口音示例。其他视频还展示了ChatGPT的高级语音功能用不同风格唱歌，包括以蓝调风格演绎“生日快乐”以及模仿青蛙和猫唱同一首歌的声音。

在这些展示中出现了几种不同的男女声音，虽然并不包括五月份被移除的类似斯嘉丽·约翰逊的“Sky”声音。

对于那些觉得错过这些有趣展示的人来说，OpenAI发言人Taya Christianson告诉，高级语音模式将在今年秋季向所有ChatGPT Plus订阅用户开放，每月订阅费用为20美元。

高级语音模式的主要功能

自然对话：高级语音模式使用户能够与ChatGPT进行实时、流畅的对话。它允许用户中途打断，模仿人类对话的动态，这一直是之前AI助手面临的挑战。
情感识别：AI可以检测并回应用户语音中的情感线索，增强互动的同理心。
多说话者处理：该模型可以区分对话中的不同说话者，提高其上下文理解能力。
高质量音频输出：利用先进的文本转语音模型，语音回复设计得自然清晰，减少了AI生成语音常见的机械感。
预设声音：用户可以从四种AI生成的声音中选择——Juniper、Breeze、Cove和Ember，这些声音旨在避免模仿真实人物，解决了之前关于声音相似度的争议。

发布细节

由于初始计划的延迟，高级语音模式的发布刚刚开始，主要是为了确保该功能符合OpenAI的安全和用户体验标准。被选中参与此测试阶段的用户将通过电子邮件和应用内消息收到通知，告知如何访问新功能。OpenAI计划在未来几个月内逐步向所有ChatGPT Plus用户开放该功能。

技术规格

高级语音模式通过一个名为GPT-4o的先进多模态模型运行，该模型集成了语音转文本和文本转语音功能，并能实时理解情感细微差别。该模型实现了无缝互动体验，最大程度减少延迟，增强对话流畅性。

安全与内容审核

OpenAI实施了多种安全措施，包括与100多位外部专家一起测试语音模型，并引入过滤器以防止生成不适当或受版权保护的内容。这些措施是OpenAI致力于确保负责任的AI开发的一部分，同时解决了先前关于声音相似度和内容安全的担忧。

如何访问OpenAI高级语音模式：情感响应的ChatGPT对话虽然高级语音模式尚未向所有ChatGPT Plus用户推出，但以下是功能广泛可用时的使用步骤。为了开始使用高级语音模式，用户需要选择即将出现在麦克风图标旁边的语音图标。用户开始对话后，将被带到另一个屏幕，在那里可以通过选择麦克风图标来静音或取消静音麦克风。用户也可以通过按右下角的红色图标结束对话。

观看了解更多关于ChatGPT应用程序中高级语音模式的内容，该功能专为ChatGPT Plus用户设计，允许自然的实时对话，识别情感和非语言线索。学习如何访问、使用和最大化这一创新语音互动模式。

高级语音模式如何同时处理多个对话 ChatGPT中的高级语音模式允许AI通过区分不同的说话者并理解每次互动的上下文来同时处理多个对话。高级语音模式在这方面的一些关键能力包括：

处理多个说话者

AI可以识别和理解对话中的多个说话者。它可以跟踪每个说话者陈述的上下文并作出相应回应。

对话流

高级语音模式允许流畅的实时对话，能够处理中断。这模仿了自然人类对话的动态，这是之前AI助手面临的挑战。

情感识别

AI可以检测并回应用户语音中的情感线索。这使模型能够提供更加同理和有上下文的回应。预设声音 ChatGPT提供四种AI生成的声音——Juniper、Breeze、Cove和Ember。这些声音旨在避免模仿真实人物。通过利用这些能力，高级语音模式可以参与多个同时进行的对话，跟踪每个对话的上下文，并对每个说话者的陈述和情感线索作出适当回应。这比之前的系统在AI对话能力上有了显著进步。

总之，OpenAI的高级语音模式将改变用户与AI的互动方式，使其更加自然和吸引人。该功能的逐步推出旨在根据用户反馈改进其功能，预计不久将全面开放。

新加坡内哥谈技术

关注

24
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
AI跟踪报道第50期-新加坡内哥谈技术-本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/点击下面视频观看在B站本周AI更新：B 站链接观看：本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼_哔哩哔哩_bilibili。
复制链接

扫一扫