男女声分类研究及应用

GeneralWave

于 2020-06-03 14:39:57 发布

阅读量1.9k

点赞数 2

分类专栏：音视频应用文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39132330/article/details/106523799

版权

该博客探讨了如何利用机器学习，特别是MFCC特征和GMM模型，进行男女声的自动分类。通过训练和测试数据集，展示了模型在识别性别上的高准确性，并讨论了数据预处理和不同模型的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

在很多业务场景下，确定发声人的性别都是很有用的。人类可以很轻松的通过一段语音确定发声者的性别，但是人的成本以及效率是比较低的。此时，假如机器可以完成这项工作的，将极大的解放人力提升效率。

研究过程

算法方案

特征的选择使用在自动语音和说话人识别中广泛使用的MFCC特征。因为男女声的最明显的差异在音色，而音色在音频上表现为其共振峰分布。MFCC特征[1]是使用频谱包络(连接所有共振峰值点的平滑曲线)再经过基于人耳听觉实验获取到的三角滤波器组，过滤掉一些人耳不敏感的频率分量之后得到。因此，使用MFCC特征作为模型的训练特征.
模型的选择同样适用在音频信号领域比较常用的gmm(高斯混合模型)。
假设男生的共振峰分布和女性的共振峰分布是有比较明显的差异的。此时，使用gmm分别去描述男性和女性的分布。在使用的时候，利用男性和女性各自的GMM模型，相似度高者即为结果。

训练方法如下:

获取一段音频，对其进行分帧，短时傅里叶变换而后提取MFCC特征，得到关于这段音频的特征组
将每一帧数据作为单独的特征，不考虑其连续性，用来训练男女两个模型,得到关于一帧数据的男女两个模型

判定一段语音归属的方法:

对一段音频进行分帧，短时傅里叶变换后提取MFCC特征
将每一帧数据分别输入到两个模型中，分别获得本帧数据与两个模型的相似度
将整段音频关于两个模型每一帧的相似度结果各自累加，作为整段音频关于两个模型的相似度，选择高的作为结果

同时，使用深度学习的方式构建以及简单的DNN模型代替GMM进行单帧的预测，最终效果与GMM的差异不大。

最低0.47元/天解锁文章

博客等级

码龄8年

2
原创

14
点赞

79
收藏

13
粉丝

关注

私信

热门文章

分类专栏

源码分析 1篇
音视频应用 1篇

最新评论

Spleeter工具简单分析
Petrichor_xx: 我在训练的时候，前部分读入音频没有问题，在训练的时候出现损失值为NAN的情况，是什么原因？学习率等也做过修改，没有好转，用的是musdb的部分数据集 [code=python] INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully INFO:spleeter:Audio data loaded successfully ERROR:tensorflow:Model diverged with loss = NaN. Traceback (most recent call last): File "E:\Anaconda\envs\music\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "E:\Anaconda\envs\music\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "D:\spleeter-master\spleeter\__main__.py", line 276, in <module> entrypoint() File "D:\spleeter-master\spleeter\__main__.py", line 270, in entrypoint spleeter() File "E:\Anaconda\envs\music\lib\site-packages\typer\main.py", line 214, in __call__ return get_command(self)(*args, **kwargs) File "E:\Anaconda\envs\music\lib\site-packages\click\core.py", line 829, in __call__ return self.main(*args, **kwargs) [/code]
Spleeter工具简单分析
m0_67970427: 您好，请问pytorch版本的训练数据集好像是hdf5文件，能给一份吗
Spleeter工具简单分析
NingboReebok: 网页版Spleeter已上线！网址：http://106.14.114.245/spleeter/ 基于大名鼎鼎的开源项目Spleeter，用人工智能技术快速分离歌曲的人声和伴奏。只需通过网页上传歌曲的音频文件并填写电子邮箱即可。一般在2小时内，最晚在24小时内将会收到电子邮件。电子邮件的附件即为分离后人声、伴奏的音频文件。不需要安装各种软件，不需要配置各种环境！
Spleeter工具简单分析
LuiChun: 兄弟，求助一下，调用spleeter，使用docker部署， spleeter是一个把音频中人声和音乐分离项目。目前遇到的问题是找不到文件
Spleeter工具简单分析
久保若阳: 没有任何头绪，网上一点教程和资料都没

最新文章

Spleeter工具简单分析

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。