离线语音识别模型

文章介绍了针对无法联网设备的离线语音识别需求,通过大量数据训练优化出轻量级模型,该模型具备流式识别、高识别率、抗噪声、关键字定义、模型定制和二次开发功能,支持多种开发语言,并已实现中文和英文识别,未来将扩展更多语种支持。
摘要由CSDN通过智能技术生成

近期随着人工智能ChatGPT的大火,语音识别和图像识别作为AI的耳朵和眼睛也着实跟着火了一把!

作为国内语音识别的龙头企业讯飞,它的模型是采集用户的数据之后依赖后台强大的算力集群来训练,所以给用户的感觉是越用越聪明,越用识别率越准。其他语音识别厂家,如百度、华为、腾讯等大厂都是类似的解决方案,对网络依赖度高。其实这里隐含了两个问题:第一是这些大厂的后台在收集用户的数据进行训练,这些数据对于大部分人来说可能没有太多的价值,但是对于敏感的数据这个是个潜在的风险,难以接受;第二就是对于无法联网的设备来说无法通过网络调用这些API,则无法使用这些解决方案。

导致很多离线设备的语音识别解决方案很有限,一方面是设备的算力有限,不可能把模型的训练集成到设备里;另一方面是需要考虑成本的问题。

因此低成本、高识别率的离线语音识别解决方案就显得很重要了!我们通过爬取了网络海量的数据进行模型训练与调优,在特定的识别领域我们自己在录音棚录音、标准再训练,拥有自己的算力集群。目前训练了一个轻量级的、识别率高,对环境噪音有较好的处理的模型。

该模型具有以下特点:

1)支持流式识别与录音识别;

2)轻量级,嵌入式设备能流畅使用;

3)识别率高,对环境噪音有较好的处理效果;

4)支持关键字定义,原则上关键字的条数不限制;

5)支持模型定制,可以根据用户的使用场景进行调优或定制;

6)支持二次开发,模型API接口支持多种开发语言,Python,Java,C/C++等;

7)目前支持中文、英语识别,其他语种的模型正在训练中,敬请期待……

-----欢迎交流

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值