"多语种智能语音关键技术及产业化"项目获得国家科学技术进步奖一等奖。该项目由科大讯飞、中国科大、清华大学、华为终端、中移信息技术等单位共同完成。
一、内容和技术成果
- 复杂语音信号解耦建模:通过多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,从而在复杂场景下显著提升了语音识别的准确率。
- 多语种共享建模:设计了全新的多语种通用音素体系和基本语言单元,构建了多语种统一音素韵律体系,并通过基于元学习的多语种预训练和基于语族分组的多语种共享建模,有效解决了小语种智能语音系统构建中知识匮乏、训练数据稀缺的问题。
- 语音语义联合建模:提出了语音语义互增强的鲁棒口语理解技术,有效提升了复杂场景下语音交互、语音翻译等的语义理解准确率。
- 国产异构硬件平台训练及推理加速:针对使用国产芯片进行智能语音算法模型训练和推理的性能低、适配难等问题,提出了硬件亲和的变长输入算子融合和联合统一量化感知训练技术,实现对语音等变长输入的训练性能优化,达到国际主流芯片同等水平。
- 产业应用:项目支持了智能手机、智能汽车等多个领域的应用,例如支持各主流手机厂商激活设备超10亿台,车载智能化产品累计前装超5300万套。
- 全球产业生态构建:项目还构建了多语种智能语音技术及全球产业生态,承建的智能语音国家新一代人工智能开放创新平台已聚集了大量开发者和终端设备。
- 技术成果的推广:科大讯飞基于该项目的技术成果发布了星火语音大模型,显著超过了国际同类技术,如OpenAI的Whisper v3,并且在语音大模型的能力上进行了进一步的升级和创新。
这些成果不仅体现了科大讯飞在人工智能领域的科技创新实力,也对提升我国在全球人工智能产业中的竞争力和国家安全等方面发挥了重要作用。
二、多语种智能语音技术
多语种智能语音技术是一种能够处理和识别多种不同语言的语音识别和语音合成技术。它使得设备能够理解、识别并用不同语言进行交流,从而实现跨语言的沟通和交互。这项技术在智能设备、翻译机、会议同传服务、办公自动化等多个领域有着广泛的应用。
具体来说,多语种智能语音技术包括以下几个方面:
- 语音识别:能够识别不同语言的语音输入,并将其转换成文本。
- 语音合成:将文本转换成特定语言的语音输出。
- 机器翻译:实现不同语言之间的翻译。
- 图文识别:识别图像中的文字并进行语言翻译。
- 语言理解系统:理解语言中的语境和语义,以提供更加智能的交互体验。
科大讯飞的多语种智能语音技术已经支持了69个语种的语音识别、60个语种的语音合成、171个语种的机器翻译、56个语种的图文识别和14个语种的语言理解系统的研发。这项技术不仅提升了人机交互的自然性和便捷性,而且对于促进不同语言和文化之间的交流具有重要意义。
三、发展方向
多语种智能语音技术作为人工智能领域的重要组成部分,其发展方向主要聚焦于以下几个关键领域:
- 技术创新:持续推进语音识别、语音合成、机器翻译等核心技术的创新,解决远场识别、噪声干扰、多人语音混叠等技术难题。
- 系统性创新:通过系统性创新来解决多语种技术难题,包括不同语言的长尾效应、训练数据稀缺、多语种技术涉及的多任务协同优化等问题。
- 数据和算法优化:研发基于人机协同的多语种数据标注平台,以及多语种端到端统一建模框架,推动无监督/弱监督训练技术,提高研发训练效率。
- 平台建设:构建多语种模型自动训练及定制优化平台,实现多语种系统的批量研发,解决人工耗时耗力问题。
- 应用场景拓展:推动多语种智能语音技术在语音交互、语言翻译等场景的规模化应用落地,如智能翻译机、智能录音笔、智能办公本等。
- 国际合作与标准制定:加强与国际伙伴的合作,参与或主导多语种智能语音技术的国际标准制定,提升国际影响力。
- AI大模型融合:结合AI大模型技术,提升复杂语义理解、长文本建模能力,增强语音识别、合成和翻译的效果,拓展智能语音技术的使用场景和应用价值。
- 产业生态构建:围绕制造业发展重大需求,推动智能语音领域的高水平科技自立自强,构建自主可控的产业生态。
- 公益与社会责任:通过技术助力公益事业,如方言保护计划、为听力障碍人士提供实时语音转文字服务等。
- 技术出海:助力国内企业产品出海,覆盖更多语种和地区,推动中国智能语音技术的国际化发展。
这些发展方向不仅体现了技术的深度和广度,也展示了多语种智能语音技术在促进语言互通、人机交互以及国家安全等方面的战略意义和广阔前景。
四、产业应用
多语种智能语音技术在产业中的应用动态非常活跃,科大讯飞作为该领域的领军企业,其技术成果已经在多个领域得到广泛应用:
- 智能手机:科大讯飞的项目支持了主流手机厂商,累计激活设备超过10亿台。这表明多语种智能语音技术在智能手机领域的应用已经非常普及,为用户带来了更加丰富的语音交互体验。
- 智能汽车:在智能汽车方面,车载智能化产品累计前装超过5300万套。科大讯飞的技术帮助汽车企业提升了车辆的智能化水平,增强了用户体验。
- 智能硬件:科大讯飞的智能翻译机等智能硬件产品不断创新,其中讯飞翻译机支持85个语种的翻译,覆盖全球200多个国家和地区,极大地促进了跨语言交流。
- 会议办公:科大讯飞的听见产品已经遍及全球50多个国家和地区,触及超过4亿的观众,为会议办公提供了高效的语音转写和翻译服务。
- 国家平台建设:科大讯飞承建的智能语音国家新一代人工智能开放创新平台自2017年以来已经聚集了实名认证开发者团队500多万,并构建了全球多语种技术生态。
- 公益活动:科大讯飞通过讯飞听见发起“听见AI的声音”公益活动,为听力障碍人士提供了免费的实时语音转文字服务。
- 技术升级:科大讯飞即将发布的讯飞星火V4.0,将展示国际领先的多语种多方言语音识别技术,并首次发布多模态语音转写系统,预示着技术将有进一步的升级和创新。
这些应用动态显示了多语种智能语音技术不仅在技术上取得了重大突破,而且在产业化应用方面也取得了显著成效,推动了相关产业的发展和升级。