智谱 GLM-4-Voice模型:感受你的情绪,上线即开源,畅享情感语音AI通话的魅力

在人工智能的发展历程中,语音识别和语音合成技术一直是研究的热点。随着深度学习技术的发展,AI的语音能力已经取得了显著的进步,但如何让机器的语音交互更自然、更富有情感,一直是行业内追求的目标。

智谱清言推出的GLM-4-Voice模型,正是在这一领域取得的重大突破。它不仅仅是一个简单的语音转文字再转语音的工具,而是一个端到端的语音模型,能够在一个模型内部完成语音的理解和生成,避免了传统级联方案中的信息损失和误差积累。智谱清言2024年10月25日宣布全量上线的「情感语音通话」功能在多个方面实现了突破,包括响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等。这表明GLM-4-Voice不仅仅是一个文字的朗读者,而是能够提供类似真人的对话体验,这在用户体验上是一个巨大的提升。

端到端建模的优势

传统的语音交互系统通常采用级联的方式工作,即先通过自动语音识别(ASR)将语音转换为文本,然后使用语言模型(LLM)生成回复文本,最后通过文本到语音(TTS)技术将文本转换回语音。这种级联方式虽然在技术上相对成熟,但存在明显的局限性:在转换过程中,语音中的许多细微差别和情感信息往往会丢失,导致最终的语音输出缺乏自然感和情感表达。

GLM-4-Voice模型通过端到端建模的方式,直接将输入的语音映射到输出的语音,省去了中间的文本转换步骤。这种端到端的建模方式不仅减少了信息的损失,还提高了语音处理的效率和准确性。更重要的是,它使得模型能够更好地捕捉和表达语音中的情感和语调,从而提供更加自然和富有情感的语音交互体验。

情感语音通话的关键技术

GLM-4-Voice模型在实现情感语音通话方面,采用了以下关键技术:

  • 音频Token化:智谱基于语音识别(ASR)模型以有监督方式训练了音频Tokenizer,能够在极低的码率下准确保留语义信息,并包含语速、情感等副语言信息。
  • 流式思考架构:GLM-4-Voice设计了流式思考架构,输入用户语音后,可以流式交替输出文本和语音两个模态的内容,保证了回复内容的高质量,并具有端到端建模Speech2Speech的能力,同时保证低延迟性。
  • 预训练数据构造:为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将Speech2Speech任务解耦合为Speech2Text和Text2Speech两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成数据以适配这两种任务形式。

这些技术的结合,使得GLM-4-Voice模型不仅能够理解语音中的语义内容,还能够捕捉和表达语音中的情感和语调,从而提供更加自然和富有情感的语音交互体验。

情感语音通话技术的核心优势

GLM-4-Voice模型的核心优势在于其能够理解和生成具有情感色彩的语音。这不仅仅是技术上的突破,更是对用户体验的一次重大提升。以下是该模型的几个关键优势:

  • 情感共鸣:GLM-4-Voice能够根据对话内容和用户的情绪,调整语音的语调、节奏和强度,实现情感共鸣。这种能力使得对话更加自然,更能够引起用户的共鸣。
  • 实时互动:模型支持用户随时打断语音输出,输入新的指令调整对话内容。这种实时互动的能力,提高了交互的灵活性和自然度。
  • 多语言和方言支持:GLM-4-Voice支持中英文及多种中国方言,如粤语、重庆话、北京话等。这种多语言和方言的支持,为用户提供了更多样化的语音交互选择,也使得AI更加贴近用户的日常生活。

用户体验的革新

GLM-4-Voice模型的推出,标志着人工智能在模拟人类情感交流上的一次飞跃。这种情感语音通话技术,为用户带来了以下几方面的革新体验:

  • 更加自然的对话体验:用户与AI的对话不再生硬和机械,而是充满了情感和温度。这种自然的对话体验,使得用户更愿意与AI进行深入的交流。
  • 更加个性化的服务:GLM-4-Voice能够根据用户的情绪和偏好,提供个性化的服务。这种个性化的服务,提高了用户的满意度和忠诚度。
  • 更加广泛的应用场景:情感语音通话技术可以应用于客户服务、教育、娱乐等多个领域,为用户提供更加丰富和多样化的应用体验。

在沟通无界限的今天,GLM-4-Voice的多语言和多方言支持,让它能够跨越语言的障碍,与更广泛的人群进行交流。目前,GLM-4-Voice尤其擅长北京话、重庆话和粤语等方言。这种方言的支持,不仅让交流更加亲切,也使得AI技术能够更好地服务于不同地区和文化背景的用户。

以下是更清晰简洁的介绍。

GLM-4-Voice是什么?

GLM-4-Voice是智谱AI推出的一款端到端情感语音模型,能够直接理解和生成中英文语音,支持实时语音对话。与传统的语音识别(ASR)+大语言模型(LLM)+语音合成(TTS)的级联方案不同,GLM-4-Voice采用了端到端的建模方式,以离散token的形式表示音频,在一个模型中同时完成语音的理解和生成,避免了中间过程中的信息损失和误差积累。

功能特色

  1. 情感表达和情感共鸣: GLM-4-Voice能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统的TTS技术在情感表达上通常比较僵硬,声音缺少起伏和细腻的变化,而GLM-4-Voice则能够提供更加自然和富有表现力的语音输出。
  2. 调节语速: 在同一轮对话中,用户可以要求GLM-4-Voice快点说或慢点说。这种灵活性使得对话更加自然和流畅,用户可以根据自己的需求和偏好来调整对话的节奏。
  3. 随时打断,灵活输入指令: GLM-4-Voice支持用户随时打断语音输出,输入新的指令调整对话内容。这种随时打断的能力,让对话更加符合日常交流的情境,使得机器的响应更加迅速和灵活。
  4. 多语言、多方言支持: GLM-4-Voice支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话和北京话等。这种方言的支持,不仅让交流更加亲切,也使得AI技术能够更好地服务于不同地区和文化背景的用户。
  5. 结合视频通话,能看也能说: GLM-4-Voice即将上线视频通话功能,这意味着它将不仅仅是一个语音助手,而是一个能够看和说的全方位交流伙伴。这一功能的推出,将使得AI助手的应用场景更加广泛,从简单的语音交流到复杂的视频互动,为用户提供更加丰富的交流体验。

技术原理

GLM-4-Voice的架构由三个核心部分组成:

  1. GLM-4-Voice-Tokenizer: 通过在Whisper的Encoder部分增加Vector Quantization训练,并在ASR数据上进行有监督训练,将连续的语音输入转化为离散的token。每秒音频转化为12.5个离散token,能够在超低码率下准确保留语义信息,并包含语速、情感等副语言信息。
  2. GLM-4-Voice-9B: 在GLM-4-9B的基础上进行语音模态的预训练和对齐,使其能够理解和生成离散化的语音token。经过数百万小时音频和数千亿token的音频文本交错数据预训练,GLM-4-Voice-9B具备强大的音频理解和建模能力。
  3. GLM-4-Voice-Decoder: 基于CosyVoice的Flow Matching模型结构训练的语音解码器,支持流式推理。将离散化的语音token转化为连续的语音输出,最少只需要10个音频token即可开始生成,有效降低了端到端对话的延迟。

如何使用

开源地址

GLM-4-Voice的使用非常方便,智谱AI提供了一个可以直接启动的Web Demo,用户可以输入语音或文本,模型会同时给出语音和文字回复。以下是详细的使用步骤参考文章:

智谱 GLM-4-Voice模型介绍 | MeoAIicon-default.png?t=O83Ahttps://www.meoai.net/glm-4-voice.html

适用场景

GLM-4-Voice的应用场景非常广泛,以下是一些主要的应用场景:

  1. 智能助手: 在智能手机、智能家居设备中,作为智能助手,用语音交互帮助用户完成各种任务,如设置提醒、查询天气、控制家居设备等。
  2. 客户服务: 在客户服务中心,作为虚拟客服,基于自然语言理解和语音合成技术,为用户提供咨询和解决问题的服务。
  3. 教育和学习: 在教育领域,作为语言学习助手,帮助学生练习发音、听力和口语,提供个性化的学习建议。
  4. 娱乐和媒体: 在娱乐行业,用在语音合成,为动画、游戏、有声书等提供自然、富有表现力的语音输出。
  5. 新闻和播报: 用在新闻播报,将文本新闻快速转换为语音,提供给需要语音信息的用户。

定价信息

目前,GLM-4-Voice模型已经开源,用户可以在GitHub上免费获取和使用该模型。智谱AI的这一举措,旨在促进技术的共享和进一步的发展。开源的GLM-4-Voice模型,让全球的开发者和研究者都能够参与到这一技术的发展中来,共同推动AI技术的边界。

结语

GLM-4-Voice的推出,不仅在技术上实现了突破,更在用户体验上带来了革命性的变化。它让我们看到了AI技术在模拟人类情感、语言和行为方面的巨大潜力。随着技术的不断发展,我们有理由相信,未来的AI将不仅仅是一个工具,而是一个能够真正理解和响应人类需求的伙伴。智谱AI的这一创新,无疑为我们打开了一扇通往未来的大门,让我们对未来的AI世界充满了期待。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值