语音|声纹识别
语音|声纹识别
墨理学AI
计算机视觉领域,新晋砖家 ☞
未来可期,欢迎和墨理一起学 AI 》 博主创建了很多CV领域的技术Club,欢迎主页左侧下方,Contact my WeChat;
展开
-
s4d 代码教程问题记录——简记
一:使用c1_16bit_8k音频数据进行Extract MFCC时,警告如下:Warning in read_audio, up-sampling function is not implemented yet!因此可以分析得出,该教程适用数据格式为:c1_16bit_16k二:它的ubm训练教程代码中,写了该txt文件,然后又读取里面的数据,结果数据读取失败,因此我选择性的把读取...原创 2019-03-06 19:10:27 · 1121 阅读 · 0 评论 -
说话人分类——概念简记
说话人分类系统需要选出不同说话人的语音片段,因此说话人聚类的纯度和覆盖区域是当前的主要目标。可能存在的错误如下:两个不同的聚类对应于同一个说话人把两个不同说话人的片段合并到一个聚类中这两种错误在NIST基于时间的二分化度量中,比边界划分错误更为严重该系统由声学BIC分段和BIC分层聚类组成,使用维特比解码以调整分段边界。...原创 2019-02-20 15:20:46 · 2281 阅读 · 0 评论 -
s4d——语音分离代码环境搭建(二)
语音分离代码环境搭建(二)conda create -n mysep355 python=3.5.5pip install --upgrade pip先安装这个 可以自动安装 numpy==1.13.3 conda install scipy==0.19.0可以自动安装 six==1.11.0conda install pandas==0.21.1conda install...原创 2019-02-24 17:29:31 · 1460 阅读 · 5 评论 -
kaldi环境搭建 、 yesno 测试
kaldi环境搭建 、 yesno 测试、一文读懂原创 2020-03-14 17:41:24 · 3143 阅读 · 2 评论 -
我对声纹识别的认识|简记
通常的声纹识别研究相关模型包含:预处理、特征提取、建模选择和评分决策。整个过程分为两大步骤,训练和识别。训练是通过对说话人注册来提取语音特征进而建立说话人声纹模版库,测试识别是将待测试语音的模版参数与声纹库中的声纹模版进行比对识别。数据准备(数据集的选取、音频质量筛选)预处理特征提取(语谱图、MFCC)建模选择(模型和损失函数)评分决策(PLDA、cos)...原创 2020-04-16 17:02:55 · 540 阅读 · 0 评论 -
中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus 【❤️下载介绍❤️】
原英文论文链接THCHS-30数据集官方下载链接原论文数据介绍如下:下载的数据集分析如下:原创 2020-04-08 14:57:50 · 3165 阅读 · 0 评论 -
分享 8k-16k-单通道-16bit WAV音频 样本数据
8k-16k-单通道-16bit WAV音频样本数据这个链接里面WAV音频格式: 单通道 , 8K ,16bit 和 单通道 ,16K ,16bit 的WAV都各有一个,可以点击下载今天就是百度找 16k 16bit WAV 格式音频找的很辛苦呀,所以把这个链接放到这里,希望以后会有帮助!...原创 2018-11-07 18:04:48 · 13744 阅读 · 5 评论 -
语音数据集 | Speech datasets
原文链接如下:免费中文语音数据集几个最新免费开源的中文语音数据集原创 2020-03-17 21:22:08 · 2997 阅读 · 0 评论 -
flac格式音频转wav|Linux 使用 Shell 循环遍历文件夹里的音频——简介
FLAC (无损音频压缩编码)-百度百科简介使用sox工具把 flac 格式转wav,命令如下:sox 1.flac 1.wav如果你的 flac 通道数、采样率、量化进度和wav不一致的话,需要加相应参数,如:sox 1.flac -c 1 -r 16000 -b 16 1.wavLinux 使用 Shell 循环遍历文件夹里的音频进行转换的代码如下:...原创 2019-03-17 21:28:27 · 2863 阅读 · 2 评论 -
s4d——seg文件数据文件正确分析
train.tv.seg20001002_0928_1028_rfi 1 1899 3162 U U U raphael_reynes##020001002_0928_1028_rfi 1 5332 2526 U U U raphael_reynes##120001002_0928_1028_rfi 1 8115 1104 U U U gilles_perez20001002_0928...原创 2019-03-17 15:57:56 · 1694 阅读 · 0 评论 -
声纹识别收藏的文章——简记
推荐链接:声纹识别技术的现状、局限与趋势原创 2019-03-06 19:17:50 · 837 阅读 · 0 评论 -
ASR工具包——简记
S4D官方文档S4D仓库S4D论文下载链接S4D:Python中的Speaker Diarization ToolkitSpeaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么。摘要:在本文中,我们提出了一个新的致力于语音分类开源Python工具包S4D。S4D提供各种...原创 2019-02-14 11:06:36 · 1983 阅读 · 0 评论 -
声纹识别算法的技术指标
原文链接声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。错误拒绝率(False Rejection Rate,FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。...转载 2019-02-19 14:00:18 · 5425 阅读 · 0 评论 -
s4d基础环境搭建
原文链接原文建议使用virtualenv或者conda创建独立的环境我此处使用virtualenv 创建虚拟环境,命令如下:cd /usr/local/mkdir pythonVenv cd pythonVenv/python3 -m venv s4dsource s4d/bin/activateSidekit for Diarization需要安装的软件:在激活新建的虚拟环...原创 2019-01-18 17:11:35 · 1503 阅读 · 0 评论