多篇论文入选ICASSP 2023,火山语音有效解决多类实践问题

近日由IEEE主办、被誉为世界范围内最大规模、也是最全面的信号处理及其应用方面的顶级学术会议ICASSP2023于希腊召开,该会议具有权威、广泛的学界以及工业界影响力,备受AI领域多方关注。会上火山语音多篇论文被接收并发表,内容涵盖众多前沿领域的技术创新,并有效解决了字音转换、语种混淆等实践问题。

图片

图片来源:https://2023.ieeeicassp.org/

LiteG2P:一种快速、轻量级、高精度的字音转换模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )

研究背景: 众所周知,字音转换(G2P)旨在将单词转换为其对应的发音表示,通常被广泛应用于语音识别(ASR)及语音合成(TTS)等语音任务中,但现有方法中基于规则的方法预测精度往往较差,还需要大量专家经验的辅助;其中基于数据驱动的深度模型方案虽然精度高,但模型尺寸往往较大且计算效率偏低。对此,火山语音团队提出了一种高效快速、轻量级、高精度的字音转换模型,可进一步适用于多类端侧设备。

方法分析: LiteG2P结合数据驱动和知识驱动的优势,得以在控制模型尺寸较小的同时取得较高精度,模型层面上不同于传统的基于注意力机制的序列到序列预测模型,而是采用CTC损失进行字音的对齐,同时使得模型具备了并行预测音素序列的优势;除此之外,火山语音团队还额外引入了语言知识词典,用以指导字母扩展长度以及缩小目标预测音素集合。

图片

The architecture of LiteG2P

效果呈现: 最终LiteG2P模型相较于主流基线模型具有高精度、并行化、轻量级、快速等优势,与主流基线模型在准确率相当的同时速度提升30倍以上,参数量小10倍以上;可一套模型架构同时部署在端云多种类型设备上,在端侧设备上单个单词的推理速度预测为5ms以内,云端设备2ms以内

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值