Funsound语音识别技术之 基于paraformer的自定义命令(唤醒)词识别

免费语音识别转写(优于讯飞):www.funsound.cn

前言

Paraformer在声学后验上通过greedy search得到语音识别结果,对于自定义命令(唤醒)词识别,肯定还得走asr模型。对此我们可以在paraformer上为每个命令词构建模板进行命令匹配,最终结果远远优于科大讯飞语音控制sdk结果。

思路

大致思路如图,例如给”前翻页“命令制作模板,只需分析在解码后的声学后验上”前“/“翻”/"页"的能量分布。当然paraformer同时提供热词模块,添加以后会进一步提高命令词召回
在这里插入图片描述

代码

算法实现如下:

def kws(self,waveform_list,WORDS=[],as_hotwords=True):
        """加载词表"""
        WORDS_IDXS = []
        for WORD in WORDS:
            WORD_IDX = self.converter.tokens2ids(list(WORD))
            WORDS_IDXS.append(WORD_IDX)

        """解码"""
        _, AM_SCORES, VALID_TOKEN_LENS, US_ALPHAS, US_PEAKS = self.__call__(waveform_list=waveform_list,
                                                                                  hotwords=" ".join(WORDS) if as_hotwords else "")
        RESULTS = []
        for am_score, valid_token_len in zip(AM_SCORES, VALID_TOKEN_LENS):
            am_score = am_score[:valid_token_len-1]
            best_score = -float('inf')
            for WORD, WORD_IDX in zip(WORDS, WORDS_IDXS):
                tgt_score = am_score[:,WORD_IDX]
                _max = np.max(tgt_score,axis=1)
                mean_score = np.mean(_max)
                if mean_score>best_score:
                    best_score = mean_score
                    best_word = WORD
            RESULTS.append([best_score, best_word])
        return RESULTS

召回率测试

在6个命令词,27人,820句的验证集上进行召回测试,测试集会进行一定程度加噪
在这里插入图片描述
结果可以看到当前基于paraformer的语音控制表现还是比较不错的。

  • 7
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pika在线

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值