英语模型
文章平均质量分 66
杰说新技术
AIGC最新前言落地技术研讨
展开
-
超越ASR+LLM+TTS,最强端到端语音对话模型GLM-4-Voice部署
GLM-4-Voice是由智谱公司开发的一款端到端的情感语音模型。GLM-4-Voice由三个部分组成,包括Tokenizer、Decoder和9B模型,其中Tokenizer负责将连续语音转换为离散token,Decoder将token转换回连续语音输出,而9B模型则基于GLM-4-9B进行预训练和对齐,理解和生成离散化的语音。GLM-4-Voice能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,并用合适的情绪语气进行回复,这使得它在情感表达上比传统的TTS技术更加自然和细腻。原创 2024-11-04 06:00:00 · 358 阅读 · 0 评论 -
在实时语音交互上超过GPT-4o,端到端语音模型Mini-Omni部署
Mini-Omni是一个专注于音频的端到端会话模型,能够实现实时的语音输入和流式音频输出。这意味着Mini-Omni能够在对话中同时处理语音和文本,而无需依赖额外的自动语音识别(ASR)或文本到语音(TTS)系统。Mini-Omni模型采用了一种文本指导的语音生成方法,结合了批量并行策略,以进一步提升性能。Mini-Omni的架构通过引入适配器来增强音频处理能力,并能够并行生成文本和音频令牌。此外,模型还采用了流式解码技术,以支持实时交互。原创 2024-09-27 06:00:00 · 694 阅读 · 0 评论 -
超越openai的whisper,最新语音理解大模型Qwen2-Audio模型部署
Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。原创 2024-08-19 06:00:00 · 1179 阅读 · 0 评论 -
支持多语言的MeloTTS模型最新语音合成部署分享(不看后悔)
MeloTTS是一个用于文本转语音(Text-to-Speech, TTS)的框架,它被设计成高效且可定制的,允许用户训练出具有独特音色和口音的TTS模型。MeloTTS支持英语、西班牙语、法语、中文、日语和韩语等多种语言,包括不同口音的英语。MeloTTS模型在CPU上也能实现实时语音合成,具有较快的合成速度。用户可以利用MeloTTS提供的工具和指南来训练新的TTS模型,这意味着可以创造个性化的语音合成效果,比如模仿特定人的声音或创造全新的发音风格。原创 2024-07-12 06:00:00 · 1756 阅读 · 0 评论
分享