android 语音自动分句,进行音频断句的自动拆分方法及系统与流程

最新推荐文章于 2024-07-06 03:01:48 发布

福路娃

最新推荐文章于 2024-07-06 03:01:48 发布

阅读量1.5k

点赞数

文章标签： android 语音自动分句

本发明提供一种音频断句的自动拆分方法及系统，通过语音分析技术快速检测符合字幕规范的语音片段，解决字幕制作中无法自动断句的问题。该方法涉及对音频分帧、能量阈值分析、谱熵计算等多个步骤，旨在提高语音断句的效率和准确性，适用于课堂录播和网络直播场景。

摘要由CSDN通过智能技术生成

本发明涉及语音、字幕处理技术领域，尤其涉及进行音频断句的自动拆分方法及系统。

背景技术：

目前字幕制作领域，主要通过人工进行语音断句，人工语音断句的前提是将语音全部听一遍，在听写的同时通过拍打快捷键来标注一句话的开始点和结束点。由于拍打的延时，所得到的开始点和结束点存在错位，需要手动调整。整个流程需要消耗大量时间。比如，30分钟的音频需要耗时40分钟至1小时的断句时间，生产力极其低下。而在网络直播领域，如果不进行断句，由人工进行听写，很难进行并行化，而人听写的速度会比直播速度慢，无法进行并行化就不能进行实时图文直播。依靠人工断句，由于人工断句的速度也比播放速度慢，也导致难以进行实时直播。

技术实现要素：

针对上述现有技术中的缺陷，本发明的目的是提供音频断句的自动拆分方法及系统。从而解决了现有字幕对应过程中，无法进行自动断句的问题。本发明针对课堂录播和网络直播，提出一种智能语音断句的方法，这种方法通过语音分析技术，能够自动快速的分析录制或采集的音频数据，检测得到符合字幕规范的语音片段，节约视音频字幕制作的时间。

为了达到上述目的，本发明提供如下技术方案：

进行音频断句的自动拆分方法，包括：

步骤S101，根据音频获取多个分帧段；

步骤S102，根据各分帧段的能量值获取能量阈值Ek；

步骤S103，根据所述能量阈值Ek，从所述各分帧段中获取其能量值超过能量阈值Et；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；

步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换，取0-4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为Vi,i＝1,2,…z。总强度为Vsum，Pi为每条谱带的概率。Pi的计算公式为：

P i = V i V s u m ]]>

则，该帧的谱熵为：

H = - Σ i = 1 z P i logP i ]]>

每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt，则将该帧归到句子中。如果扫描到语音流的开始或结束，扫描中止。

在一种优选的实施方式中，所述步骤S101中包括：

步骤S1011：接收音频文件；

步骤S1012：根据设定的分割时间对所述音频文件进行分割，获取多个分帧段。

在一种优选的实施方式中，所述步骤S102中包括：根据各分帧段的能量值的平均值获取能量阈值Ek。

在一种优选的实施方式中，所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et，则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括：

若前序帧或后序帧的能量阀值小于设定能量Et，则判断当前帧与下一帧的间隔时间是否小于设定间隔时间，若是，则将所述句中间帧按帧起始顺序合并成为独立句；

所述谱熵分析单元，配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于Et，且不属于其他句子，则对该帧进行傅立叶变换&#x