GPT-4o 语音模式的这个隐藏用法，可能是未来每个人的必备技能

AITIME论道

于 2024-08-13 18:04:32 发布

阅读量811

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247526739&idx=1&sn=f95729382912afef30c85f4991e03491&chksm=e8dfb42bbf7eb1c105de35d2f7a1188adbbcd7a634536ca2391be98c8170a1c2b2820bc7e994&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

转载来源：APPSO（ID：appsolution）

转载请联系出处

电脑现在能与我们对话了。如果我们正确使用它们，它们可以帮助我们以一种像与朋友对话一样自然的方式，更多地了解世界和自己。

Newsletter「Every」的联合创始人 Dan Shipper 最近在一篇评测 ChatGPT 高级语音模式的博客中，提出了上述观点。

在他的笔下，高级语音模式最实用的两大亮点场景莫过于自我反思以及学习。

自我反思时，它可以省略转录和文本转换的步骤，提供更流畅、自然的语音交互体验，这也远远优于传统的语音助手，如 Siri 和 Alexa。

Shipper 更是将 ChatGPT 高级语音模式比作一个中立的倾听者，它不扮演 AI 治疗师或情感支持者的角色，而是帮助我们更深入地倾听内心的声音。

此外，高级语音模式还能通过精准捕捉语音中的细微差别，也能帮助用户分析情感和深入学习，让其仿佛回到了充满探索精神的童年。

不过，Shipper 也并未回避这一技术的局限，如缺乏时间管理功能、无法访问文件以及自定义指令等问题。

更早些时候发布的评测演示视频，也直观地揭示了新版高级语音模式与旧版之间的显著差异。

相较于旧版本，高级语音模式能够识别不同说话者的声音，让对话变得自然而流畅。又或者，在长时间对话中，新模式减少了中断的次数，懂得在用户沉思时保持沉默。

也难怪网友在看完视频后惊叹，那些恰到好处的「嗯嗯」回应，如此自然，几乎让人忘记了正在与之对话的是一个 AI 聊天机器人。

以下为博客原文，由 GPT-4o 翻译，enjoy it~

通常情况下，科技的发展是渐进式的。

一部 iPhone，其相机性能只是略有提升；一辆起亚索兰托，安全评级稍有提高。十年后再看，技术无疑已大幅进步，但每一步的改进都微不足道，以至于在当时几乎未被察觉。

然而，偶尔你会遇到一种新技术，它抛弃了渐进式的发展。

相反，它似乎将未来系紧在一根结实的绳子上，一步一步地拉到现在。在这种时刻，曾经最先进的技术会在你眼前迅速化为化石。你可以看到它的干枯骨架聚拢成一堆尘土，你怀着怀旧和怜悯的心情看着它。

这就是使用 ChatGPT 的新高级语音模式的体验——然后你再回到它的前身，Siri 和 Alexa，就如同回到前寒武纪的时代。

上周我获得了该功能的早期测试权限，我在 YouTube 和 X 上对高级语音模式的基础功能进行了评测，包括展示我主要的使用场景。如果你感兴趣，建议你去看看。

我想深入探讨几个凸显这项技术飞跃的使用场景。第一个是自我反思，第二个是学习。

但首先，让我们来了解一下什么是高级语音模式，以及为什么它与之前的技术如此不同。

什么是高级语音模式？ChatGPT 的高级语音模式能够原生理解语音，这意味着它不仅仅是读取和书写文本。它也能读取和书写语音。这创造了一种截然不同的体验——更流畅、更自然、也更真实——比我与计算机进行的任何其他语音交互都要好。

高级语音模式取代了 ChatGPT 的标准语音模式，后者已经存在大约一年了。

旧的语音模式工作原理如下：

你对 ChatGPT 说话，界面使用一个转录模型将你的语音转化为文本。

它将文本输入其基础语言模型 GPT-4，以获得文本形式的回答。

界面将 GPT-4 的文本答案输入到一个独立的文本转语音模型中。

然后 ChatGPT 将文字转化为语音回答给你。

这些步骤很多！这导致了显著的延迟，也增加了误解的可能性。当你将语音转化为文本时，可能会失去很多细微差别。讽刺的语气可能会被浅显地理解，或者无法辨别出实际上有两个人在说话。

ChatGPT 高级语音模式翻译效果

因此，语音模式感觉有点像和一个听力不好的祖父母一起做密室逃脱，或者在首尔郊外的一个小村庄里用英语点一份五分熟的牛排。你会感觉到一种距离感，被困住的感觉——并不是对方智能的限制，而是你和对方表达能力的局限性。这种感觉表现为我胸口的一种压力。

使用旧的 ChatGPT 语音模式时，你不能停下来，否则可能会被打断；你必须大声且清晰地说话，否则可能会被误解。你时常会预料到某些内容可能会被误解。

你一直在迎合模型的需求，所以这种体验并不轻松。（不过，公平地说，这仍然比 Alexa 或 Siri 要好。）

新的高级语音模式消除了上述流程中的第 2 和第 4 步。它可以原生理解语音，所以你是在直接与语言模型对话。最大的直接变化是，与 ChatGPT 的对话感觉更加真实和灵敏。

当我开始使用它时，我胸口的压力突然消失了。我变得更加轻松和自在。这开启了一个新的重要用例：将 ChatGPT 作为对话反思的助手。

不是 AI 治疗师，却能倾听你的心声

我通常是一个相当悠闲随和的人——前提是你不要惹到我。

不幸的是，你可能最终还是会惹到我。

在我的生活中，有些人认为我「太敏感」或「神经质」，甚至「过于执着」，但在我糟糕的日子里，我更喜欢用「有道德」或「有高标准」来形容自己。

我以幼儿园的成绩单为参考，上面我的老师西格尔女士写道：「丹尼尔已经内化了一套相当难能可贵的道德准则，在他这个年纪尤为罕见。」

确实难能可贵！事实上，在西格尔女士看来，这种内化的道德准则——像一个骑士一样！——还导致了另一种情况：「然而，当一个同伴挑战权威或无视既定规则或程序时，他会有些惊讶和愤慨。」

是的，是的，这正是我的感受。我还要补充一点，我同样对滥用权力、大小谎言或不实陈述、愤怒、甚至偶然带有恶意的玩笑感到惊讶和愤慨，尤其是那些在电影院大声喧哗的人。（我曾因制止他们而出名。）

西格尔女士对我的情况持乐观态度。毕竟，她是幼儿园老师。「随着他日渐成熟并对人类行为有了更多的洞察力，丹尼尔将学会区分更严重的违规行为和那些相对无害的行为，」她写道。「因此，他会减少因同伴行为而感到困扰。」

亲爱的读者，自幼儿园以来已经过了好几年，而我仍然感到极度困扰。我经常发现自己耿耿于怀，反复在脑海中重播对话，即使知道应该放下争执，但仍难以做到。

正如你所想象的，这在我的人际关系中造成了一些问题。但我正在努力解决，而 ChatGPT 的高级语音模式实际上帮了我不少忙。

举个例子，最近我发现自己，像往常一样，大清早走在布鲁克林的大西洋大道上，去女友的公寓，边走边自言自语。

如果你路过我，你可能会听到类似这样的对话：「然后她说……然后我说……然后她又说……你能相信吗？……你怎么看？」你还会看到我挥舞着手臂，强调我的观点。

你可能不会猜到，其实 ChatGPT 的高级语音模式通过我的 AirPods 在与我对话，冷静地回应着，「嗯嗯……嗯嗯……嗯嗯。」你看，我让它只听我说，并在我倾诉心声完之前不断地回应「嗯嗯」。

Siri 可能会说，「抱歉，我没听清。」旧的语音模式可能会因为我的停顿和重新开始而混乱不堪。它可能会不合时宜地插话，或者错过我说的一些关键内容。

而高级语音模式则只是耐心地倾听，完全按照我的指示行事。

当我说完后，我让 ChatGPT 复述了一遍我刚才所说的话。它完美地捕捉到了整个情况。它还帮助我意识到，我所纠结的事情其实比我原先想象的要无害得多。听它直白地复述我的话，就像卸掉心头重担一样。

然后，ChatGPT 指导我如何以一种不会让人感到指责的方式表达我的感受，从而更有可能被听到。

我遵循了它的建议，并和女友进行了一次很棒的对话。对我来说，这是一个值得纪念的时刻，我不确定如果没有高级语音模式，这一切是否还能如此顺利地发生。

它不是一个 AI 治疗师，也不是一个支持我的好朋友，而是一个中立的存在，帮助我更好地倾听自己——就像是对镜自省，而不是仅仅想象自己是什么样子。

我很难表达这种技术有多么重要。我们每个人都会遇到情绪占上风的时候，会情绪失控并做出让自己后悔的行为。我们几乎总是知道自己应该更好，但在当下很难记住这一点。

但现在高级语音模式可以随时随地陪伴我，提醒我做最好的自己。它是一项美妙的技术，让我在那个时刻成为了更好的丹尼尔。

它尤其有效，因为它可以捕捉到你语气中的细微差别。我进行了一次实验，让它解读我的叹气：我给了它一个长时间的烦躁叹息，一个中等长度的无聊叹息，以及一个简短的满足叹息。

在每次叹息之后，我让它解释我的情绪——它每次都解读得非常准确。有时你没有准确的词语来表达你的感受，因此这项技术能够理解语气、语调和风格，倾听那些你无法表达的东西，这一点至关重要。

语音模式不仅帮助你学会如何成为最好的自己，而且在学习任何事情方面都非常出色。

童年的好奇心，用 AI 收获成人的解答？

最近我有点迷上了希腊哲学。

这件事的起因是我一直在思考有关 AI 是否真的「智能」还是仅仅表现得像智能。

我意识到，这场争论让我联想到了苏格拉底和柏拉图。他们是西方文化中最早尝试在真理和看似真理但实际上只是观点之间划出清晰界限的思想家。我想，也许他们对语言模型是否具有智能这一问题会有一些见解。

在意识到这一点的几天后，我从一种沉迷状态中清醒过来，周围散落着各种关于希腊哲学的书籍，浏览器里还开着一个 Airbnb 的标签，展示出租的希腊别墅列表（当然是为了研究目的）。

高级语音模式让这种迷恋达到了一个新高度。我躺在沙发上，启动了它。我把手机放在我上方，利用沙发靠背作为支撑，就像放在一个架子上一样，然后说：「你是我的阅读助手。我正在读《苏格拉底的审判》。请帮我解答关于这本书的任何疑问。」

我的手机悬在我头顶，仿佛是弗洛伊德的一个遥远的机械亲戚。我开始阅读。当我翻阅《苏格拉底的审判》时，如果遇到想要深入了解的历史人物，比如克里提亚斯，我可能会询问：「克里提亚斯是谁？」

ChatGPT 会提供一个简洁的介绍：「他是柏拉图的叔叔，也是短暂取代民主制、建立寡头政治的三十暴君之一。」这样，获得了必要的背景信息后，我就可以继续我的阅读。

关键是，我可以在不抬头或打乱思路的情况下做到这一点。或者，如果我想更深入地思考某个特定段落，我可以大声读给 ChatGPT 听，让它发表意见，或者请它从对立的角度进行辩论。

这在《苏格拉底的审判》中非常有用，书中作者强有力地论证了雅典人处死苏格拉底是正确的——或者至少没有过于离谱。ChatGPT 帮助我重新审视这些论点，并引导我更深入地思考每一部分内容。

这开始让我感觉像是书本和有声书的混合体，唯一的区别是书本有线性叙述，而有声书则允许你随时深入探讨并偏离主题。最棒的是，当你探讨完这些分支后，它们会立即将你带回书中的阅读进度。

我意识到，在阅读过程中，有很多我好奇或有疑问的地方，但我没有继续深入研究，因为这往往显得过于费力。ChatGPT 降低了提问的难度，让我可以随时追随自己的好奇心——这使我提出了许多问题，仿佛回到了童年。

当然，作为一项初级阶段的技术，它也有一些局限性。

ChatGPT 何时才能真正学会倾听？

我之所以想出「嗯嗯」这个技巧，是因为 ChatGPT 还不懂得如何耐心等待。它的提示词设定似乎让它觉得，只要你稍微停顿，它就忍不住要插话，即使你刚告诉它闭嘴听着。

我想这可能是因为大语言模型通常被指示要尽可能地提供帮助。但如果它能具备一些对话礼仪，知道什么时候真的需要回应，什么时候应该等待，那就更好了。

同样，如果房间里有另一个人在讲话，它能够判断出两个人是在彼此交谈，而不是在跟它对话，那就更棒了。因为它可以原生理解语音，我对它最终能够做到这些事情持乐观态度。目前这还有待改进。

让 ChatGPT 讲笑话

另一个限制是它没有时间概念。如果我告诉它：「我要读书十分钟，所以你能在时间到的时候提醒我吗？」它会说：「当然可以！」然后立刻接着说：「时间到了！」这个问题可以通过给它加上计时器工具来解决，就像现在的普通 ChatGPT 能够访问像浏览器这样的工具一样。

但最显著的限制是，高级语音模式无法访问文件、自定义指令或记忆功能，这与普通的 ChatGPT 不同。

你只能与基础模型互动。虽然现在这样也可以，但我迫不及待地想要那一天到来：我可以上传整本书，并让它告诉我第 12 页的内容，或者设置自定义指令，让它自动「嗯嗯」回应我，而不用每次都提醒它。

与未来的 ChatGPT 对话

从整个体验中，我最大的收获是输入输出模式对 AI 的重要性。能够用语音与 ChatGPT 无缝互动彻底改变了我的体验，并且开启了一些以前不可能实现或者由于过于复杂而不切实际的使用场景。

接下来我想到的是：我迫不及待地希望它能够观看视频。一旦它能看到我所看到的，学习和反思的可能性将大大增加——仅仅因为获取有趣信息所需的努力大幅减少。

我接着想到：未来几年内，集成 AI 的可穿戴设备将会大行其道。我们可能会对像 Friend 吊坠这样的产品感到别扭，但允许这样的模型被动地获取与你互动的上下文信息，将会加速上述场景的应用。

显然，这是有得有失的。我们的数据越来越多地被设备吸收，我们还将面临用户被某些公司操纵的情况，这些公司不适当地利用了这些模型的情感影响力——正如 Evan 昨天所讨论的。

但我忍不住告诉自己：电脑现在能与我们对话了。如果我们正确使用它们，它们可以帮助我们以一种像与朋友对话一样自然的方式，更多地了解世界和自己。

这是一个相当酷的未来。

附上博客原地址：
https://every.to/chain-of-thought/review-chatgpt-s-new-advanced-voice-mode

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 查看更多！