android 语音自动分句,进行音频断句的自动拆分方法及系统与流程

本发明提供一种音频断句的自动拆分方法及系统,通过语音分析技术快速检测符合字幕规范的语音片段,解决字幕制作中无法自动断句的问题。该方法涉及对音频分帧、能量阈值分析、谱熵计算等多个步骤,旨在提高语音断句的效率和准确性,适用于课堂录播和网络直播场景。
摘要由CSDN通过智能技术生成

0d016ec3d96091afc90fdd0ac4dbb0f1.gif

本发明涉及语音、字幕处理技术领域,尤其涉及进行音频断句的自动拆分方法及系统。

背景技术:

目前字幕制作领域,主要通过人工进行语音断句,人工语音断句的前提是将语音全部听一遍,在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时,所得到的开始点和结束点存在错位,需要手动调整。整个流程需要消耗大量时间。比如,30分钟的音频需要耗时40分钟至1小时的断句时间,生产力极其低下。而在网络直播领域,如果不进行断句,由人工进行听写,很难进行并行化,而人听写的速度会比直播速度慢,无法进行并行化就不能进行实时图文直播。依靠人工断句,由于人工断句的速度也比播放速度慢,也导致难以进行实时直播。

技术实现要素:

针对上述现有技术中的缺陷,本发明的目的是提供音频断句的自动拆分方法及系统。从而解决了现有字幕对应过程中,无法进行自动断句的问题。本发明针对课堂录播和网络直播,提出一种智能语音断句的方法,这种方法通过语音分析技术,能够自动快速的分析录制或采集的音频数据,检测得到符合字幕规范的语音片段,节约视音频字幕制作的时间。

为了达到上述目的,本发明提供如下技术方案:

进行音频断句的自动拆分方法,包括:

步骤S101,根据音频获取多个分帧段;

步骤S102,根据各分帧段的能量值获取能量阈值Ek;

步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;

步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率。Pi的计算公式为:

P i = V i V s u m ]]>

则,该帧的谱熵为:

H = - Σ i = 1 z P i logP i ]]>

每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中。如果扫描到语音流的开始或结束,扫描中止。

在一种优选的实施方式中,所述步骤S101中包括:

步骤S1011:接收音频文件;

步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。

在一种优选的实施方式中,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。

在一种优选的实施方式中,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:

若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句;

所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值