对话科大讯飞：国产 AI 应用落地比 GPT-4o 更快，在探索的路上寻找弯道超车的机会...

AI科技大本营

已于 2024-09-03 08:36:18 修改

阅读量1k

点赞数 20

文章标签：人工智能

于 2024-09-02 18:35:16 首次发布

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/141833520

版权

大模型之战进入讯飞的主场，星火极速超拟人交互上线引领行业破局。

文 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

8 月 30 日，科大讯飞星火极速超拟人交互技术正式上线讯飞星火 APP，率先面向全民开放体验。这项技术旨在通过端到端的统一模型框架，将语音识别、自然语言理解和语音合成等技术整合起来，从而实现更自然、更流畅、更人性化的交互体验。

目前，GPT-4o 的“Her”都只给部分高级会员发放资格体验，而讯飞发布的这款大模型产品，不仅在语音能力上对标 GPT-4o，还可以在讯飞星火 APP 中直接体验使用。

今年的 OpenAI 春季发布会上，CTO Mira Murati 和两位核心开发人员曾用一套“丝滑”的流程演示了 GPT-4o 超前的语音交互能力，我们不妨用星火来复现一遍：

在那场发布会上，OpenAI 演示员先是上来就快速打断 GPT-4o 的发言，展现无延迟语音实时对话的特色；对于星火来说，这些都是小意思，它不仅响应速度极快，支持随时打断，使得用户可以在任何时间中断 AI 的发言，而 AI 则能够立刻作出反应，这一点在真实的人际交往中是非常常见的行为。技术团队通过创新和强化底座的认知能力，解决了打断和响应时间之间的平衡问题。

OpenAI 的演示员曾让 4o 用各式各样的腔调讲故事，大秀了一波语音合成能力；星火可以模仿数十种以上的音色，并且科大讯飞的端到端模型相比传统的模块化系统，能够更高效地传递信息，减少了信息在各模块间传递时的损耗。通过统一框架，该模型不仅提高了信息传递的效率，还增强了对人类语言细微差别的理解与表达能力。

记得那场演示中，OpenAI 一度询问 4o 能否感知到用户的心情，即情绪感知能力；这也是讯飞这次的宣传重点之一，不同于以往的语音交互系统只关注于理解和回应文本内容，星火极速超拟人交互技术能够捕捉和回应语音中的情感成分，对多种情绪的可感知度达到 85% 以上。在后续的采访中，科大讯飞研究院常务副院长高建清还指出，通过解耦语音属性，用户能够更加灵活地控制输出，如情感、方言和音色等，从而提供更个性化的交互体验。

历经 ChatGPT 发布后两年以来的“百模大战”，文本模型有些“卷到头”了的趋势，各大 AI 厂商开始发布自己在多模态模型领域研究的成果。其中，AI 语音是许多消费者在实际使用体验里最为关心的一环，也是讯飞真正意义上的“主场作战”。

CSDN 曾先后采访过科大讯飞研究院院长刘聪和常务副院长高建清，两人传达出了相同的理念，即讯飞坚信未来的人机交互场景将以语音（文本）为主，其他模态（如视觉）为辅。因为在人类与机器的信息交互之中，语言表达是更重要的。环境中的其他信息，都只是给 AI 语音起到辅助作用。

人机交互是一个很古老的命题。从 20 世纪中期到 21 世纪初，人机交互经历了从简单的汇编语言输入到图形用户界面（GUI）的演变，再到语音识别和合成技术的发展。我们甚至可以说，语音交互是人机交互的一个子集。

进入 21 世纪后，随着 AI 技术的进步，语音交互变得更为自然，尤其是在 2010-2014 年期间，语音唤醒技术让人们可以通过简单的口头命令与设备互动。2015 年左右，全双工交互技术的应用进一步提高了人机对话的质量。此外，图像和视频技术的发展也拓宽了人机交互的维度。

科大讯飞在上世纪 90 年代就开始探索语音合成技术，在语音识别技术上也持续演进，从 2010 年起致力于语音识别技术的研究与应用，并在同期推出了讯飞输入法和语音云平台，被大众所熟知。如今大模型之战进入了讯飞的“主场”，与 OpenAI 的 GPT-4o 相比，星火已经具备了同等级别的声音控制、情感共鸣，并在实时打断的部分完成了许多创新，能够根据上下文自动判断何时打断用户的讲话，这对于缩短响应时间至关重要。

高建清认为，尽管在基础模型方面与国外存在一定的差距，但国内在将技术从 Demo 转化为实际产品的能力上具有明显优势。从整个行业发展来看，无论是大公司创业公司还是大厂，互联网公司在模型方面一直都在对标 GPT。GPT 发布新模型后，国产厂商一直处于长期跟随状态。

至于国内是否存在变道超车 OpenAI 的机会呢？高建清指出了一个事实：“目前（我们和）他们的差距在变小。” 基础模型之战告一段落，中国大模型行业将在 AI 应用层面寻找全新的突破口。

“从模型到产品是一个很难跨越的关键点，它考验工程化能力。今年在国内也是 AI 应用的爆发年。从这个角度来看，中国正处于以大模型为基础的新 AI 时代。”

以下为科大讯飞高建清的现场采访整理（实际有删减）：

将基础大模型的能力

转化为实际应用场景中的价值

Q：目前市面上语音端到端模型并不多，希望您科普讲解一下此类模型的架构，让我们理解一下这个模型的魅力。

高建清：语音端到端模型相较于传统的模块化语音交互系统，在信息传递上有着明显的优势。传统的语音交互系统由多个独立的模块组成，如语音识别、大语言模型和语音合成，各个模块之间通过文本形式进行信息传递，这会导致大量的信息流失。相比之下，端到端模型采用表征形式来传递信息，使得整个信息流无损，从而提高了系统的响应速度和信息完整性。

Q：目前星火只展示了语音能力，后续还会不会引入视觉等多模态能力？

高建清：我们正在计划中。我们最初围绕语音进行的原因是从行业应用的角度来看，我们认为整个人机交互场景以语音为主视觉为辅，绝大部分信息还是通过文本或者语音形式来表达给机器进行交互，环境中的视觉信息起辅助作用，因此我们的节奏是“先语音再视觉”，包括提到的很多应用也是如此。在与机器的交互过程中，语言的表达占据了主导地位，而视觉信息可能更多地用于人类之间的交流。

Q：您认为在多模态领域面临的技术难点是什么？

高建清：目前我们基本上具备多模态的初步形态，未来可能会融入一些视觉模型等方面。其中一个主要挑战是模态之间的对齐。此外，多模态数据的质量和数量以及收集难度比单独模态的数据要大得多，包括标注成本也很高。作为一个整体模型，训练相对困难，参数调整非常复杂，难以迅速收敛。因此，必须有很多基础，例如曾经做过视觉、文本和语音，这些原有的模型可能需要作为基础来融合到一个新模型中。

我们应该接受 AI 的独特性

AI 就是 AI，它以自己的方式运作

Q：目前选择使用 AI 助手来满足情感陪伴需求的人相对较少，但事实上很多用户确实有情感陪伴的需求，只是基础意识不够。例如，敬老院或者特殊人群，他们需要更定制化的陪伴，甚至可以录制自己的声音并将其发送给家里的老人使用，这种功能有实现的可能性吗？

高建清：我们正在考虑赋能内容生成（AIGC）场景，计划将此技术应用于更广泛的领域，包括但不限于影视作品的互动体验以及为特殊群体提供定制化的陪伴服务。通过技术赋能内容创作，如允许用户录制自己的声音并与家人分享，用自己的声音去创作，都是有可能的。

Q：如果现在将这项技术植入到一些常见的电子产品，比如蓝牙音箱，是否可以实现？

高建清：如果是云端，那么最主要的是软件能力上的定制，非常容易实现。如果是在本地，那么需要进行定制工作，比如智能硬件需要支持哪些功能，我们需要专门沟通，另外是否需要安装在硬件里面，这些都是本地实现的工作。目前，云端移植的工作量相对较小，得益于属性解耦的设计理念，未来的升级与维护将变得更加灵活便捷，有助于加速技术在各类智能终端上的普及。

Q：「极速超拟人交互对多种情绪的可感知度达到 85% 以上」，这项数据是如何定义的？

高建清：85% 指的是情绪的感知度，例如“当我用高兴的语气说话时，AI 是否可以用安慰或者用暖心回复的方式与我共情？” 然后经过统计，平均每当用户灌输 1 万条数据，AI 能在 8500 条以上的数据使用合适的情绪反馈用户。

我们的目标是在拟人化道路上不断前进，希望人工智能能够成为基本情感陪护的伙伴。85% 这一指标指的是在模拟人类情感表达方面达到了较高的相似度，类似于恐怖谷效应中的视觉效果，即当拟真程度接近 95% 时，人们会感到不适。对于语音方面是否会存在类似的效应，目前尚不确定。

我们不应期望人工智能完全模仿人类的行为模式，有时能够与用户产生共鸣，有时则不然。或许我们应该接受 AI 的独特性，即 AI 就是 AI，它以自己的方式运作。

在我看来，这是一个值得探索的方向，未来我们可能会沿着这条道路继续前行。现阶段，由于早期版本的 AI 表现不够智能，因此仍需追求更高的拟人化程度。然而，最终的目标可能并不是要让 AI 完全像人类一样，而是找到一种新的交互方式。对于初创公司而言，这是一条值得尝试的路线，而对于通用技术公司，则需要在这两个方向上都做出努力。

Q：在语音交互中，快速是天然存在的需求。除了快速之外，在技术潜力上，讯飞 AI 还能带来哪些优势？你们的端到端系统除了速度快之外，还有哪些技术潜力和能力需要进一步提升？

高建清：在情感共鸣方面，讯飞星火的系统仍有不足之处。人类语音中除了文字信息外还包含了许多非言语的信息，这些信息的完整保留是我们系统的一大优势。尽管目前的技术已能让用户感受到一定程度的情感共鸣，但与人类相比还有很大差距。

首先，情感共鸣是一个重要的发展方向，并且可能是此类系统的最大优点之一。其次，多模态结合的系统也是一个值得关注的领域，通过不同模态的互补来提升整体性能。