声纹识别的发展综述

最新推荐文章于 2023-01-11 21:35:39 发布

深意-

最新推荐文章于 2023-01-11 21:35:39 发布

阅读量1.1k

点赞数

分类专栏：声纹识别文章标签：人工智能深度学习算法

原文链接：https://zhuanlan.zhihu.com/p/67563275

版权

声纹识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

声纹识别的发展综述

综述

综述

声纹概念与用于识别的优势

声纹的概念：声音就是一段波，声纹就是携带了信息的声波频谱。
为什么可以用于识别？

声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变，因此，它同指纹一样，独特的生物学特征，可用于身份识别。
声纹特征对比其他生物学特征更有优势。

声纹识别工作方式

声纹识别在产品上的本质主要就是以下两种工作方式： 1比1 和 1比N
在这里插入图片描述
工作流程大致如下：

提取语音，预处理，提取特征
利用训练好的模型，计算该语音对应的声纹模型或者声纹特征
最后进行相似度打分，得到结果

由此我们可以看出声纹识别主要就是三大部分：特征，模型，得分。下面根据这三大要素分别阐述

声纹识别三大部分：特征，模型，得分

首先看下这三大部分的整体技术流派和技术发展路线
在这里插入图片描述

语音特征介绍

在这里插入图片描述

声纹模型的演进

传统的声纹识别主要是基于统计思想和概率论，结合声学，信号学，机器学习等算法

2012年，跨入了以deep learning 为主线的算法，DNN-based系统陆续出现，并基于深度学习领域的新思想持续改良

近两年发展起来的End-to-End 端到端系统，代表：2018年谷歌百度的相关论文
在这里插入图片描述

基于深度学习的声纹技术

在这里插入图片描述

上面的网络结构中，有一个Statistics Pooling Layer，负责将Frame-level Layer，Map到Segment-Level Layer，计算frame-level Layer的Mean和standard deviation。TDNN是时延架构，Output Layer可以学习到Long-Time特征，所以x-vector可以利用短短的10s左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。
在这里插入图片描述

其他语音技术介绍

在这里插入图片描述

摘自知乎“巧克力工厂的查理”，用作学习总结。

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
声纹识别的发展综述

声纹识别的发展综述综述声纹概念与用于识别的优势声纹识别工作方式声纹识别三大部分：特征，模型，得分语音特征介绍声纹模型的演进基于深度学习的声纹技术其他语音技术介绍综述声纹概念与用于识别的优势声纹的概念：声音就是一段波，声纹就是携带了信息的声波频谱。为什么可以用于识别？声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变，因此，它同指纹一样，独特的生物学特征，可用于身份识别。声纹特征对比其他生物学特征更有优势。声纹识别工作方式声纹识别在产品上的本质主要就是以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。