纠错模型在自研asr系统的使用意义

我们决定自研asr,同时就得面对通用音频领域语料少的问题,我们可以使用我们自己的录音数据,以及通过音频的增广去增加语料,以及自己投入人力进行数据标注。

这里有一个我做事情的准则,一切目标导向。 我们做自研asr不是为了做一个通用领域的对标各大第三方商用服务商,我们的目标是,在客户内网服务中,更准确的识别用户在电话领域的意图,以及表达内容的实体。

因此,我们不仅仅是提高asr的准确率和降低错字率,也可以在模型的更新同时,对结果的校对,我们还想到通过在任务的下游增加纠错,来实现意图命中的准确率。

因此,我们在asr识别的结果,进行对应的纠错,在初期的迭代中,将提高客户对我们自研asr的满意度。

做一件事情是一个迭代的过程,要去引导客户和在客户的可理解范围内,提升和实验自己的新技术,这是一个风险很大的事情。

要做好这类事情,首先你的明确你的目标,你要知道客户的忍耐程度,你自己的技术更新迭代计划和速度,这些都对你的结果至关重要。

非常开心的是,我们既做到为公司降低成本,又做到客户的满意程度,同时为自己提供了一个平台去尝试更新的技术,提升自己的价值。

回到本文,目前github上star最多是纠错是,

https://github.com/shibing624/pycorrector​github.com/shibing624/pycorrector

使用其他非常方便,但是效果还是有待提高,因此可以借鉴他的模型和代码,训练属于你自己领域的纠错意图,才是重中之重。

比如在交警领域:更关注用户的处罚、缴费、延期等等,这些可以自己生成一部分数据提供训练。

技术是为商务服务的,没有任何一家公司是技术型公司,因为公司的本质是为了赚钱。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值