使用tensorflow实现声纹识别

本文详述如何利用tensorflow实现声纹识别,基于ArcFace loss进行训练,适用于音频验证项目。介绍了数据处理、模型下载及安装步骤,数据集包含3342个个体的1130000+条语音数据,已转换为wav格式。
摘要由CSDN通过智能技术生成

前言

本文介绍使用tensorflow实现简单的声纹识别模型,首先需要熟悉音频分类,没有了解的可以查看我上篇文章-基于tensorflow实现声音分类,基于这个基础上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话者是谁,可应用在一些音频验证项目。 不同的是本项目使用了ArcFace loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重进行归一化,对θ加上角度间隔,角度间隔比余弦间隔在对角度的影响更加直接。
使用环境
python3.8
tensorflow2.3.0

模型下载

https://download.csdn.net/download/qq_33200967/20368421

安装

1.pip install tensorflow==2.3.0 -i https://mirrors.aliyun.com/pypi/simple/
2.pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

创建数据

1.本牛马使用的是中文语音语料数据集,这个数据集一共有3342个人的语音数据,有1130000+条语音数据。如果读者有其他更好的数据集,可以混合在一起使用,使用python的工具模块aukit处理音频、降噪和去除静音
2.首先创建一个数据列表,**数据列表的格式为<语音文件路径/语音标签>,创建这个列表主要是方便之后的读取,也是方便读取其它的语音数据集,语音分类标签是不同人的唯一标识id,不同的语音数据集,可以通过编写对应的生成数据列表的函数,把这些数据集都写在数据列表中
3.在create_data.py中写下一下代码,因为中文语音语料数据集 这个数据集是mp3格式的,本牛马发现这种格式读取速度很慢,所以笔者把全部的mp3格式的音频转换为wav格式,在创建数据列表之后,可能有些数据的是错误的,所以我们要检查一下,将错误的数据删除。执行下面程序完成数据准备

import json
import os

from pydub import AudioSegment
from tqdm import tqdm

from utils.reader import load_audio


# 生成数据列表
def get_data_list(infodata_path, list_path, zhvoice_path):
    with open(infodata_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()

    f_train = open(os.path.join(list_path, 'train_list.txt'), 'w')
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值