AI手机-手机SIM卡通话内容的ASR识别和文字提取-ASR指标差异(在线、实时)

AI手机-手机SIM卡通话内容

ASR识别和文字提取-(三、ASR指标差异(在线、实时))

通常来说,我们寻觅ASR方案除了识别准确率、执行效率、多语言等考虑之外,最多的是关注实时/非实时、在线/离线ASR这两个指标,因为它们将直接影响ASR识别的架构,以及ASR模型的部署位置和部署方式。

实时和非实时语音质检

非实时ASR,顾名思义就是不能在实际的通话过程中实时反馈、转译语音,而是等待通话或沟通结束后,根据沟通过程的录音文件,进行事后的摘要、汇总和解析。实时ASR则可以对通话过程的内容进行转义和干预,实现诸如在线翻译、同声互译、发言速记等需要快速反馈的场景。

速记提醒技术支撑:速记功能可以给一些有一边浏览资讯一边记录图文的习惯的用户提供方便,不需要额外下载,而且无论文字或图片,只要在浏览页内点击复制,立即就可以保存到速记的笔记中。如果想要收集数据图、思维导图等重要的图片,依然是长按点击复制,对应的图片也会粘贴到笔记中,提升用户在浏览过程中的使用体验。实时ASR能让用户提供快速浏览的功能,可以在语音领域实现对应的速记提醒的效果。

在语音ASR模型中,影响实时/非实时的最主要参考的参数是执行时间和并发数,在执行时间中,我们主要使用“平均响应时长”来衡量。

参考资料表明:gpt-4o 可以做到实时,它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

在线ASR和离线ASR区别

在线ASR,顾名思义就是ASR模型部署在云服务器,使用时声音被终端设备采集后,使用网络传输到云端,由云服务器解析转换成文字后,通过网络再传输到终端设备进行声音播放或文字显示。常见的天猫精灵、小爱同学等家庭Echo设备的语音交互都属于在线ASR。

随着终端设备的运算力的逐步增强,运算能力有由原先的“云计算”向“边缘计算”的途径靠拢的趋势。现在的ASR算法对设备的平台、运算力的要求大幅的下降,最新发布的手机或AI手机,均搭载了足够的运算单元,能够实现或部分实现使ASR模型部署和运算在手机本地上的能力。这种不依赖网络的语音ASR的能力,就是离线ASR。

下面以百度的离线ASR的功能来举例,阐述百度的离线识别功能的组成:

离线命令词: 断网时识别固定的预定义短语(定义在bsg文件中),SDK强制优先使用在线识别。 断网时激活,只能识别

预定义的短语: 联网时,强制使用在线识别。固定短语的语法需要从控制台“离线词&本地语义”模块预定义并下载为baidu_speech_grammar.bsg文件

唤醒词:识别预定义的“关键词”, 这个“关键词”必须在一句话的开头。 本地功能,不需要网络。唤醒词即识别“关键词”,当SDK的识别引擎“听到”录音中的关键词后,立即告知用户。与android系统的锁屏唤醒完全无关。关键词和离线命令词一样,需要预定义并下载为WakeUp.bin文件

小结

上述概念可以作为我们后续对ASR模型的选型参考,我们本次选型最主要说白了就两点:是否免费、识别率行不行;在这个基础之上进而考虑模型库多少MB/GB,自己要做Windows/Linux/嵌入式Linux/Android哪个平台,选的方案对该平台有没有预案、是否容易迁移。

在线/离线的部署方式其实对结果并不会有太大影响,对通信语音领域大多时候都处于“有的选”和“没的选”的分界线,只要竞品都这么干,问题都不大。实时和非实时检测也是同样的道理。


上一篇:AI手机-手机SIM卡通话内容ASR识别和文字提取-(二、商用ASR方案)

下一篇:AI手机-手机SIM卡通话内容的ASR识别和文字提取-免费ASR方案

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值