近期随着人工智能ChatGPT的大火,语音识别和图像识别作为AI的耳朵和眼睛也着实跟着火了一把!
作为国内语音识别的龙头企业讯飞,它的模型是采集用户的数据之后依赖后台强大的算力集群来训练,所以给用户的感觉是越用越聪明,越用识别率越准。其他语音识别厂家,如百度、华为、腾讯等大厂都是类似的解决方案,对网络依赖度高。其实这里隐含了两个问题:第一是这些大厂的后台在收集用户的数据进行训练,这些数据对于大部分人来说可能没有太多的价值,但是对于敏感的数据这个是个潜在的风险,难以接受;第二就是对于无法联网的设备来说无法通过网络调用这些API,则无法使用这些解决方案。
导致很多离线设备的语音识别解决方案很有限,一方面是设备的算力有限,不可能把模型的训练集成到设备里;另一方面是需要考虑成本的问题。
因此低成本、高识别率的离线语音识别解决方案就显得很重要了!我们通过爬取了网络海量的数据进行模型训练与调优,在特定的识别领域我们自己在录音棚录音、标准再训练,拥有自己的算力集群。目前训练了一个轻量级的、识别率高,对环境噪音有较好的处理的模型。
该模型具有以下特点:
1)支持流式识别与录音识别;
2)轻量级,嵌入式设备能流畅使用;
3)识别率高,对环境噪音有较好的处理效果;
4)支持关键字定义,原则上关键字的条数不限制;
5)支持模型定制,可以根据用户的使用场景进行调优或定制;
6)支持二次开发,模型API接口支持多种开发语言,Python,Java,C/C++等;
7)目前支持中文、英语识别,其他语种的模型正在训练中,敬请期待……
-----欢迎交流