深度学习声纹识别_Milvus 实战|生物多因子认证系列 (一):声纹识别

本文介绍了基于Deep Speaker和Milvus的声纹识别技术,通过声纹特征提取和向量搜索引擎实现说话人识别。声纹识别是生物多因子认证的重要组成部分,结合人脸认证提升安全性。Milvus作为向量搜索引擎,处理非结构化数据,为声纹和人脸特征检索提供高效支持。
摘要由CSDN通过智能技术生成
cb4c59e2c1a75a7e2efd64585d52e761.png

| 什么是声纹识别

声纹识别(又称说话人识别)是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的一种生物识别技术。简单来说,声纹识别技术可以“确认说话人是谁”。我们说话的时候,每个人的发音器官、发音通道和发音习惯上都有个体差异,声纹识别技术就是为了识别出说话人之间的这些差异。需要注意的是,声纹识别不同于常见的语音识别 [1]:

  • 语音识别:是共性识别,能听懂人的说话内容,即“你说了什么?”。
  • 声纹识别:是个性识别,能判断说话人是谁,即“说话人是谁?”。

| 声纹识别模型

背景

声纹识别的本质,就是要找到描述特定对象的声纹特征 (feature),声纹特征类似于虹膜、指纹等,是一种独特的生物特征。至于特征提取方法,按照发展历程有模板匹配、高斯混合模型 (GMM) 、联合因子分析法 (JFA) 、深度神经网络方法等[2]。在深度神经网络之前出现的方法基本可以认为是传统方法。传统方法通常用精确的数学模型对声音信号进行特征提取,而深度神经网络通过模型训练获得声纹特征。研究表明:相较于传统方法,利用深度学习的方法在识别准确率上获得了显著的提高。本文用到的声纹特征就是基于深度学习模型得到的。

特征提取

Deep Speaker[3] 是百度发布的一个基于神经网络的说话人嵌入系统,其基本思想是将说话人的语音映射到一个超平面,从而可以通过余弦相似度取来衡量说话人的相似度。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值