基于双门限法的语音端点检测及语音分割

最新推荐文章于 2024-04-22 08:42:06 发布

听雨轩雨霖铃

最新推荐文章于 2024-04-22 08:42:06 发布

阅读量3.4k

点赞数 8

分类专栏：语音处理 Python 文章标签：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42302340/article/details/106064305

版权

Python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

2 篇文章 1 订阅

订阅专栏

voice_activity_detection

Audio Split 基于双门限法的语音端点检测及语音分割

代码在我的github上voice_activity_detection

如果您觉得有一点点用，请隔空比个心（或者，去我的github上点一下 “Star” 也可以~）

根据短时能量和过零率，基于双门限法的语音端点检测及语音分割

直接运行audio_split.py，会对./raw_audio文件夹下的所有音频文件进行分割：

首先对原音频转成16kHz，16bit，PCM格式，单通道的.wav文件，保存在./convert2wav文件夹下；
再对转换后的文件进行第一次分割，保存在./detected_split1文件夹下；
再次对分割后的文件分割，保存在./detected_split2文件夹下；
最后根据时长限制，加速音频，保存在./duration_limit文件夹下。

以上各步骤可选，参数均可自由设置，程序里有详细注释。

另外，对于acoustic_feature.py，请看我另一个仓库:声学特征提取

关于./raw_audio文件夹下的两个示例文件，运行程序会有两张plot输出：

图1 汉语：“蓝天白云”的语音端点检测

图2 一些汉语数字的语音端点检测

Python Import

关于本程序的依赖库（其中Librosa最好和我使用的版本一致，其他版本都没测试过）：

Librosa-0.7.2
Numpy-1.18.1
matplotlib-3.1.3
Scipy-1.4.1
Soundfile-0.9.0

License 开源许可协议

GPL v3.0 © ZZL

赞助

如果你喜欢本程序，并且它对你有些许帮助，欢迎给我打赏一杯奶茶哈~

微信:

支付宝:

听雨轩雨霖铃

关注

8
点赞
踩
37

收藏

觉得还不错? 一键收藏
4
评论
基于双门限法的语音端点检测及语音分割

voice_activity_detectionAudio Split 基于双门限法的语音端点检测及语音分割代码在我的github上voice_activity_detection如果您觉得有一点点用，请隔空比个心（或者，点一下 “Star” 也可以~）根据短时能量和过零率，基于双门限法的语音端点检测及语音分割直接运行audio_split.py，会对./raw_audio文件夹下的所有音频文件进行分割：首先对原音频转成16kHz，16bit，PCM格式，单通道的.wav文件，保存在./co
复制链接

扫一扫

专栏目录

听雨轩雨霖铃 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

31万+: 周排名

107万+: 总排名

1万+: 访问

: 等级

284: 积分

21: 粉丝

27: 获赞

39: 评论

133: 收藏

私信

关注

热门文章

分类专栏

最新评论

声学特征提取-python
听雨轩雨霖铃: 应该可以，直接通过openSmile中的config文件自定义配置，输入改成自己的按帧的LLD特征向量，需要对配置文件非常熟悉，建议参考官方手册https://audeering.github.io/opensmile/index.html，或是python版本的https://github.com/audeering/opensmile，本质就是通过API其中的cFunctionals类，你可以研究下。原本都是基于官方预配置的一些特征，自定义估计比较复杂，建议直接手写统计特征，比较简单，我的程序中就有计算部分统计特征，可以参考下
声学特征提取-python
小氵羊: opensmile可以将LLDs特征通过functionals转成HSFs特征，这个functionals功能可以单独使用吗？就比如我现在从别的地方提取了LLDs特征xlsx文件，然后只需要使用opensmile的functionals功能将我从别的地方提取的LLDs特征转成HSFs，仅仅是使用functionals功能，跳过opensmile提取本身设计的特征集的功能。望回复，如果可以，希望加您一个v x或者q吗？
声学特征提取-python
许杉杉: 您好，请问您找到具体数值在哪里了吗
基于双门限法的语音端点检测及语音分割
听雨轩雨霖铃: github里面raw_audio文件夹下就有，自己录音的，你也可以自己录。
基于双门限法的语音端点检测及语音分割
THEA88: 博主可以分享一下，蓝天白云的音频资料吗，我在网上找了很久都没找到，谢谢谢谢2451917619@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。