在语音识别的实际应用中,对于常用的词汇识别效果比较好,但是对于一些特有的人名、歌名、地名或者某个领域的专有词汇,例如人名宋星辰、歌名国际歌、地名丽泽商务区以及语音识别专业词汇解码器,可能存在识别准确率不高的情况。对于这些专有词汇,通过在 WeNet 中使用热词增强方案,添加热词可以显著提升识别的准确率。
近期,WeNet 的更新支持了两种解码器上热词增强,包括 CTC Prefix Beam Search 和 WFST Beam Search。
热词增强
热词增强在论文中也叫 Context Biasing 或者 Contextual Biasing,相当于是把一些先验的知识加入到了语音识别系统中。WeNet 在解码过程中维护一个 Context Graph 中的状态。通过子图中的状态计算热词的得分,然后通过浅融合 (Shallow Fusion) 的形式在束搜索的过程中进行加分。
声学得分和热词得分的加权公式如下:
Context Graph
假如我们需要对下述热词进行增强:
-
王思
-
欧阳唯一
-
唯品会
指定热词中每个字的得分为 3,则 Context Graph 的构图如下图所示:
</